Ich bin komplett neu in Python und verwende Python 3.1 unter Windows (pywin). Ich muss einige HTML analysieren, um im Wesentlichen zusätzliche Werte zwischen bestimmten HTML-Tags und bin verwirrt in meinem Array von Optionen, und alles, was ich finde, ist für Python 2.x geeignet. Ich habe Raves über Beautiful Soup, HTML5Lib und Lxml gelesen, aber ich kann nicht herausfinden, wie ich diese unter Windows installieren kann.Beste Bibliothek zum Parsen von HTML mit Python 3 und Beispiel?
Fragen:
- Welche HTML-Parser empfehlen Sie?
- Wie installiere ich es? (Seien Sie sanft, ich bin völlig neu in Python und erinnere mich daran, ich bin unter Windows)
Haben Sie ein einfaches Beispiel, wie Sie die empfohlene Bibliothek verwenden, um HTML von einer bestimmten URL abzufangen und den Wert aus sagen so etwas wie dieses:
< div class = "foo" > <Tabelle> <tr> <td> foo </td > </tr > </table > < a class = "link" href = "/ blahblah '> Link </a > </div >
(sagen wir zurückkehren wollen "/ blahblah")
Irgendeine Idee, wie man den eingebauten HTML-Parser benutzt, um den Inhalt der Tags zu bekommen? – Teifion
Beautiful Soup hat einen guten Bericht über seinen aktuellen Status. http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork