Extrahieren eines Artikels mit BeautifulSoup Text

Ich versuche, den gesamten Text aus einem Artikel mit BeautifulSoup zu extrahieren. Ich kann den ganzen Text des Artikels vom vorhergehenden und folgenden HTML trennen, aber ich kann nicht herausfinden, wie man den Text von seinem ganzen eingebetteten HTML-Code trennt. Hier ist mein Code:Extrahieren eines Artikels mit BeautifulSoup Text

from bs4 import BeautifulSoup 
import requests 
url = 'http://www.prnewswire.com/news-releases/tata-consultancy-services-reports-broad-based-growth-across-markets-marks-steady-fy17-300440934.html' 
r = requests.get(url) 
html = r.text 
soup = BeautifulSoup(html, 'lxml') 
links = soup.find_all('p', {'itemprop': 'articleBody'})

Verbindungen enthält alle Artikeltext, aber es ist in mehrere Segmente unterteilt.

Alle Ideen zum Trennen und Kombinieren aller Artikeltextsegmente aus dem HTML-Code, der im Artikeltext eingefügt wird, wären sehr willkommen.

Quelle

2017-04-18 Bill Orton

i siehe ' Links "als leere Liste, bist du sicher, dass es" item_prop "und nicht" itemprop "ist? – odradek

Hallo, vielen Dank für den Hinweis auf meinen Tippfehler. Es sollte itemprop sein und nicht item_prop. Die richtige Links-Anweisung wäre: Links = soup.find_all ('p', {'itemprop': 'articleBody'}) –

können Sie die get_text Methode verwenden, die den gesamten Text unter einem Tag zurückgibt:

links = [e.get_text() for e in soup.find_all('p', {'itemprop': 'articleBody'})]

dann kommen sie, wie Sie wollen:

article = '\n'.join(links) 
print len(article)

würde Ausgang

$ 6485

Quelle

2017-04-18 18:19:08 odradek

Vielen Dank. Das hat meine Frage vollständig beantwortet. –

Extrahieren eines Artikels mit BeautifulSoup Text

Antwort

Verwandte Themen