2008-08-25 6 views

Antwort

12

NekoHTML, TagSoup und JTidy können Sie HTML analysieren und dann mit XML-Tools wie XPath verarbeiten.

+0

XPath ist der Weg für das HTML-Parsing, es hilft im Falle von schlechtem gebildetem HTML auch dort, wo Regex fehlschlägt. –

7

Ich habe versucht HTML Parser, die tot ist einfach.

+0

Ich habe HTML-Parser für ein Projekt verwendet und es funktionierte genau wie erwartet –

+1

, aber es gibt nicht viele Tutorials zur Verfügung ... – Lily

+0

Ich habe eine Menge JavaScript-Snippets (und Elementattribute) in meinem angeblich "Textknoten schleichen bemerkt "Extraktionen. Es gab auch Fälle, in denen falsch formatiertes HTML den gesamten Analysevorgang fehlschlagen ließ. Ich möchte also die htmlparser-Bibliothek in meinem eigenen Projekt durch etwas besseres ersetzen. – benjismith

1

Müssen Sie eine vollständige Analyse des HTML durchführen? Wenn Sie nur nach bestimmten Werten innerhalb des Inhalts suchen (ein spezifisches Tag/Parameter), dann könnte ein einfacher regulärer Ausdruck genügen und könnte sehr viel schneller sein.

Verwandte Themen