Beste Bibliothek zum Parsen von HTML mit Python 3 und Beispiel?

Ich bin komplett neu in Python und verwende Python 3.1 unter Windows (pywin). Ich muss einige HTML analysieren, um im Wesentlichen zusätzliche Werte zwischen bestimmten HTML-Tags und bin verwirrt in meinem Array von Optionen, und alles, was ich finde, ist für Python 2.x geeignet. Ich habe Raves über Beautiful Soup, HTML5Lib und Lxml gelesen, aber ich kann nicht herausfinden, wie ich diese unter Windows installieren kann.Beste Bibliothek zum Parsen von HTML mit Python 3 und Beispiel?

Fragen:

Welche HTML-Parser empfehlen Sie?
Wie installiere ich es? (Seien Sie sanft, ich bin völlig neu in Python und erinnere mich daran, ich bin unter Windows)
Haben Sie ein einfaches Beispiel, wie Sie die empfohlene Bibliothek verwenden, um HTML von einer bestimmten URL abzufangen und den Wert aus sagen so etwas wie dieses:

< div class = "foo" > <Tabelle> <tr> <td> foo </td > </tr > </table > < a class = "link" href = "/ blahblah '> Link </a > </div >

(sagen wir zurückkehren wollen "/ blahblah")

Quelle

2010-03-24 TMC

Web-Scraping in Python 3 wird derzeit sehr schlecht unterstützt; alle anständigen Bibliotheken mit Python nur funktionieren 2. Wenn Sie Web schaben in Python müssen, Python verwenden 2.

Obwohl Beautiful Soup oft empfohlen (jede Frage in Bezug auf Web mit Python in Stack-Überlauf Schaben schlägt es), dann ist es nicht so gut für Python 3 wie für Python 2; Ich konnte es nicht einmal installieren, da der Installationscode immer noch Python 2 war.

Wie für angemessene und einfach zu installierende Lösungen für Python 3, können Sie versuchen, , obwohl ganz Barebones, kommt es mit Python 3.

Quelle

2010-06-29 22:13:17

Irgendeine Idee, wie man den eingebauten HTML-Parser benutzt, um den Inhalt der Tags zu bekommen? – Teifion

Beautiful Soup hat einen guten Bericht über seinen aktuellen Status. http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – dyork

BeautifulSoup mit seiner Version 3.1.0.1 (Januar 2009) arbeiten auch mit Python 3.x

Ich habe keine direkte Erfahrung mit BeautifulSoup unter Py3k (obwohl sich das bald ändern sollte ...). Ich lese gerade, dass Version 3.1.0 of Beautiful Soup does significantly worse on real-world HTML than its previous versions, so kann ich versuchen und warten, wenn möglich (d. H. Mit Python 2.6 ein bisschen länger bleiben).

Quelle

2010-03-24 03:02:42 mjv

Wenn Ihr HTML gut formatiert ist, haben Sie viele Optionen, z. B. sax und dom. Wenn es nicht wohlgeformt ist, benötigen Sie einen fehlertoleranten Parser wie den HTML-Parser Beautiful soup, element tidy oder lxml. Kein Parser ist perfekt, wenn er mit einer Vielzahl von gebrochenem HTML dargestellt wird, muss ich manchmal mehr als einen ausprobieren. Lxml und Elementree Verwenden Sie eine meist kompatible API, die eher Standard als Beautiful soup ist.

Meiner Meinung nach ist lxml das beste Modul für die Arbeit mit XML-Dokumenten, aber die ElementTree im Lieferumfang von Python ist immer noch ziemlich gut. In der Vergangenheit habe ich Beautiful soup verwendet, um HTML in xml zu konvertieren und ElementTree für die Verarbeitung der Daten zu konstruieren.

Quelle

2010-03-24 03:23:11 mikerobi

Ich verwende derzeit lxml, und unter Windows verwendete ich die Installationsbinär von http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml.

import lxml.html 
page = lxml.html.fromstring(...) 
title = page.xpath('//head/title/text()')[0]

Quelle

2011-11-17 19:54:03

Ich weiß, so spät ist, aber für die Zukunft, schöne Suppe 4.3.2 ist ab Oktober 2013.

http://www.crummy.com/software/BeautifulSoup/bs4/download/

Es ist kompatibel mit Python 3.

Quelle

2013-12-10 09:07:43

Beste Bibliothek zum Parsen von HTML mit Python 3 und Beispiel?

Antwort

Verwandte Themen