2016-11-15 2 views
0

Ich versuche, ein Problem mit beatifulsoup zu lösen. Ich habe InhaltBeatifulSoup bekommen Antwort mit "•" in Inhalt

content =""" 
<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div> 
""" 

Was ich haben will ist das „Datum“ Feld aber ich kann nicht bekommen, ist Arbeit. Ich habe versucht:

soup = BeautifulSoup(content, "html.parser") 
info = {} 
for details in soup.find_all("div", {"class" : "topinfo title"}): 
    info[details.text.strip(':')] = details.next_sibling.strip('\n') 

aber ich kann es ...

Antwort

0

ich bin nicht sicher, was Ihre Notwendigkeit bekommen arbeiten, aber das vielleicht funktionieren:

from bs4 import BeautifulSoup 
doc ='''<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div>''' 
soup = BeautifulSoup(doc, 'lxml') 
soup.get_text() 

aus:

'Kategorie: Serie • Datum: 15.11.16 • IMDB: \n' 

Wenn Sie diesen Punkt bekommen, können Sie damit spielen, was Sie wollen.

Verwandte Themen