Ich versuche, ein HTML-Dokument mit dem Doctype die Übergangs-dtd erklärt zu analysieren wie folgt zu verwenden:DTD-Download-Fehler beim Parsen von XHTML-Dokument in XOM
< DOCTYPE html PUBLIC „- // W3C // DTD XHTML 1.0 Transitional // EN“ "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd" >
Wenn ich Builder.build auf dem Dokument zu tun, erhalte ich die folgende Ausnahme:
java.io.IOException: Server returned HTTP response code: 503 for URL: http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1305)
at org.apache.xerces.impl.XMLEntityManager.setupCurrentEntity(Unknown Source)
at org.apache.xerces.impl.XMLEntityManager.startEntity(Unknown Source)
at org.apache.xerces.impl.XMLEntityManager.startDTDEntity(Unknown Source)
at org.apache.xerces.impl.XMLDTDScannerImpl.setInputSource(Unknown Source)
at org.apache.xerces.impl.XMLDocumentScannerImpl$DTDDispatcher.dispatch(Unknown Source)
at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)
at nu.xom.Builder.build(Builder.java:1127)
at nu.xom.Builder.build(Builder.java:1019)
Wenn ich entfernen Die Deklaration des Dateityps analysiert sie gut. Ich kann erfolgreich die dtd von meinem Browser herunterladen, die mir sagt, dass die URL gültig ist. Ich möchte die Deklaration des Dokumenttyps nicht entfernen. Ist dort ein Weg, sagen Sie dem Erbauer, die dtd nicht herunterzuladen oder es mit einer alternativen dtd zur Verfügung zu stellen?
Sie sind HTML ‚von den wilden‘ Parsen oder haben Sie erstellen/haben die Kontrolle über die Seiten Sie Parsen? – lucas
Ich habe Kontrolle über den HTML-Code, den ich analysiere, also kann ich zumindest die Doctype-Deklaration entfernen. Aber ich versuche, gute Praktiken beizubehalten und die Doctype-Deklaration beizubehalten. – Bala