Ich versuche, einen Text innerhalb eines Site-Quellcodes mit BeautifulSoup zu scrappen. Teil den Quellcode sieht wie folgt aus:BeautifulSoup verwenden, um Text innerhalb eines Tags zu extrahieren
<hr />
<div class="see-more inline canwrap" itemprop="genre">
<h4 class="inline">Genres:</h4>
<a href="/genre/Horror?ref_=tt_stry_gnr"
> Horror</a> <span>|</span>
<a href="/genre/Mystery?ref_=tt_stry_gnr"
> Mystery</a> <span>|</span>
<a href="/genre/Thriller?ref_=tt_stry_gnr"
> Thriller</a>
</div>
So habe ich versucht, die Texte ‚Horror‘ ‚Geheimnis‘ und ‚Thriller‘ mit diesen Codes zu extrahieren:
import requests
from bs4 import BeautifulSoup
url1='http://www.imdb.com/title/tt5308322/?ref_=inth_ov_tt'
r1=requests.get(url1)
soup1= BeautifulSoup(r1.text, 'lxml')
genre1=soup1.find('div',attrs={'itemprop':'genre'}).contents
print(genre1)
Aber die Rückkehr kommt als:
['\n', <h4 class="inline">Genres:</h4>, '\n', <a href="/genre/Horror?
ref_=tt_stry_gnr"> Horror</a>, '\xa0', <span>|</span>, '\n', <a
href="/genre/Mystery?ref_=tt_stry_gnr"> Mystery</a>, '\xa0', <span>|</span>,
'\n', <a href="/genre/Thriller?ref_=tt_stry_gnr"> Thriller</a>, '\n']
ich bin ziemlich neu in python und Screen Scraping, also würde ich schätze all die Hilfe, die ich bekommen kann. Vielen Dank!
Dies sollte die akzeptierte Antwort. Einfach schön. – deshu
@deshu, danke ... – RomanPerekhrest