Ich möchte in der Lage sein, Inhalte von Webseiten, vor allem die Tags und den Inhalt in ihnen greifen. Ich habe XQuery und XPath ausprobiert, aber sie scheinen nicht für falsches XHTML zu arbeiten und REGEX ist nur ein Schmerz.Was ist der beste Weg, scrape schlecht geformte XHTML-Seiten für eine Java-App
Gibt es eine bessere Lösung? Idealerweise möchte ich in der Lage sein, nach allen Links zu fragen und eine Reihe von URLs zurück zu bekommen oder nach dem Text der Links zu fragen und eine Reihe von Strings mit dem Text der Links zurück zu bekommen oder nach dem ganzen fett gedruckten Text zu fragen usw.
Kumpel, Sie haben mich gerade von der Veröffentlichung einer doppelten Frage gerettet :) Genau, was ich mehr herausfinden muss. Vielen Dank. –
Technisch kann XHTML nicht schlecht gebildet werden. Eine Bedingung von XHTML ist, dass es gut gebildet und gültig ist. Sorry für den lahmen Kommentar, ungültiges XHTML verärgert mich. –