2011-01-04 7 views

Antwort

3

hallo Siehe diese Antwort von dieser Seite http://htmlcleaner.sourceforge.net/,

HtmlCleaner ist Open-Source- HTML Parser in Java geschrieben. HTML gefunden auf Web ist in der Regel schmutzig, schlecht gebildet und ungeeignet für die weitere Verarbeitung. Für jeden ernsthaften Verbrauch von solchen Dokumente, ist es notwendig, zuerst die Unordnung aufzuräumen und die Bestellung zu Tags, Attributen und gewöhnlichem Text zu bringen. Für das angegebene HTML-Dokument, HtmlCleaner reorders individuelle Elemente und produziert wohlgeformten XML. Standardmäßig folgen ähnliche Regeln , die die meisten Webbrowser in Reihenfolge verwenden, um Document Object Model zu erstellen. Der Benutzer kann jedoch das benutzerdefinierte Tag und den Regelsatz für die Tag-Filterung und den Ausgleich bereitstellen.

Betrachten wir zum Beispiel das folgende Beispiel ..........,

<table id=table1 cellspacing=2px 
    <h1>CONTENT</h1> 
    <td><a href=index.html>1 -> Home Page</a> 
    <td><a href=intro.html>2 -> Introduction</a> 


    After putting it through HtmlCleaner, XML similar to the following is coming out: 
    <?xml version="1.0" encoding="UTF-8"?> 
    <html> 
     <head /> 
     <body> 
      <h1>CONTENT</h1> 
      <table id="table1" cellspacing="2px"> 
      <tbody> 
       <tr> 
        <td> 
         <a href="index.html">1 -&gt; Home Page</a> 
        </td> 
        <td> 
         <a href="intro.html">2 -&gt; Introduction</a> 
        </td> 
       </tr> 
      </tbody> 
      </table> 
     </body> 
    </html> 

und diese Seite verweisen, wie htmlCleaner zu verwenden, http://thinkandroid.wordpress.com/2010/01/05/using-xpath-and-html-cleaner-to-parse-html-xml/

2

HTML Cleaner ist ein Bibliothek zu "säubern", wie es der Name sagt und schlecht formatierten HTML zu XHTML konvertieren, um in der Lage zu sein, es mit einem XML-Parser zu analysieren.