2009-07-14 4 views

Antwort

3

Über das Umschalten auf other parsers hinaus? Wenn die Site konsistente Fehlermuster aufweist, können Sie sie über eine Reihe von regulären Ausdrücken beheben, bevor Sie sie an den Parser weiterleiten.

0

Ich habe die Cobra-Renderer aus dem "Projekt Lobo" (http://lobobrowser.org/cobra.jsp) zum Parsen von weniger als freundlicher HTML und es hat funktioniert gut genutzt. Es ist API sehr einfach zu bedienen.

Hoffe, das hilft.

0

Verwenden JTidy es ordentlich vor Parsen, oder besser noch als der Parser verwenden

+0

Ich finde, dass JTidy ist langsam und wird seit 2000 nicht gepflegt. –

0

Ich weiß nicht, was „Websites wie“ bedeutet, aber MercuryNews.com und die meisten Nachrichten-Websites eine RSS interface haben.

+0

RSS bietet nur kurze Schnipsel auf den meisten Seiten. Ich bin daran interessiert, die vollständigen Artikel im HTML-Format zu analysieren. –

0

Ich habe versucht jsoup - http://jsoup.org -.

Es ist eine Open-Source-Java-Bibliothek für echte HTML-Analyse und DOM-Manipulation mit jquery-ähnlichen Methoden.