Ich benutze NekoHtml. Es fehlgeschlagen Parsing HTML von Websites wie quecksilbernews.com in DOM. Irgendeine Lösung für das Problem?Wie behandeln/parse schlecht formatierte HTML in DOM in Java?
Antwort
Über das Umschalten auf other parsers hinaus? Wenn die Site konsistente Fehlermuster aufweist, können Sie sie über eine Reihe von regulären Ausdrücken beheben, bevor Sie sie an den Parser weiterleiten.
Haben Sie Tag Suppe in Betracht gezogen?
Sie können prüfen, die Swing-HTML-Parser verwenden.
Ich habe die Cobra-Renderer aus dem "Projekt Lobo" (http://lobobrowser.org/cobra.jsp) zum Parsen von weniger als freundlicher HTML und es hat funktioniert gut genutzt. Es ist API sehr einfach zu bedienen.
Hoffe, das hilft.
Verwenden JTidy es ordentlich vor Parsen, oder besser noch als der Parser verwenden
Ich weiß nicht, was „Websites wie“ bedeutet, aber MercuryNews.com und die meisten Nachrichten-Websites eine RSS interface haben.
RSS bietet nur kurze Schnipsel auf den meisten Seiten. Ich bin daran interessiert, die vollständigen Artikel im HTML-Format zu analysieren. –
Ich habe versucht jsoup - http://jsoup.org -.
Es ist eine Open-Source-Java-Bibliothek für echte HTML-Analyse und DOM-Manipulation mit jquery-ähnlichen Methoden.
- 1. Schlecht formatierte JSON-Analyse
- 2. Wie man JSON schlecht formatierte (Zitatschlüssel) repariert?
- 3. Excel-Makro, das schlecht formatierte Daten in Tabelle
- 4. wie in html dom schreiben
- 5. Wie lese ich formatierte Eingabe in Java?
- 6. DOM-Implementierung in Java
- 7. Parsing von schlecht formatiert HTML in PHP
- 8. Einfügen von $ in formatierte float-java
- 9. HTML Einfache DOM-Ergebnis in HTML-Tabelle
- 10. R - schlecht formatierte Daten - nicht übereinstimmende Angebote, CSV-Datei
- 11. html parsen in DOM preformance
- 12. Ist es schlecht, HTML in einer PHP-Klasse zu verwenden?
- 13. Wie formatierte Zeichenfolge in OCaml?
- 14. Wie parse quasi-HTML-Text in Java?
- 15. Wie analysiert man folgende in HTML vorhandene Zeichenfolge und erstellt DOM-Baum in Java?
- 16. Javascript html dom Array-Elemente in Schleife
- 17. HTML-String in DOM-Elemente konvertieren?
- 18. php html dom Klammern in href
- 19. Anzeige HTML-formatierte Tabelle mit Webview in Android
- 20. Transform Html DOM
- 21. array_unique() in PHP einfache html dom
- 22. Wie erhalte ich JSON formatierte Daten in C# -Methode Argument
- 23. Wie wird ein HTML DOM mit Shadow DOM serialisiert?
- 24. html DOM Node Grenzen
- 25. PHP HTML DOM Parser
- 26. .NET HTML-DOM-Parser?
- 27. Wie verhindert man HTML-formatierte Datenanalyse über JAXB
- 28. , wie die HTML für ein DOM-Element in Javascript bekommen
- 29. Wie FLV-formatierte ByteArray in OSMF spielen?
- 30. Wie formatierte Nachricht in Log4j2 mit slf4j
Ich finde, dass JTidy ist langsam und wird seit 2000 nicht gepflegt. –