Ich möchte eine Website von einem Fernsehsender mit Python und Beautifulsoup4 zu kratzen.Finden und erhalten von Daten mit Beautiful Soup
Die URL der ganzen Seite, die ich in gelesen ist: http://www.tve.es/alacarta/videos/aguila-roja/
Mit dem Befehl html = soup.find_all("div", class_="extra mark")
ich extrahieren Sie die Nummer, die interessanten Informationen enthält: Anzahl der gezeigten Jahreszeit und eine kurze Beschreibung der jeweiligen Saison.
im HTML-Code der ursprünglichen Seite sieht dieser Teil wie folgt aus:
Wie kann ich die Anzahl der Jahreszeiten bestimmen? Ich stelle mir vor es muss etwas mit der Suche nach der Nummer (Länge) des
<p class="ladillo">
Objekts oder<span>Season xy</span>
sein.Wie kann ich die Beschreibung/Zusammenfassung jeder Saison extrahieren? Vor allem, weil die beiden ersten Saisons ein Tag wie
<span style>
enthalten, aber den Rest der Jahreszeiten nicht dieses Tag besitzen. Die Weitere die ganzen<p>
‚s mir verwirren ...
(bis jetzt habe ich nur mit regulären Ausdrücken gearbeitet und ich konnte keine Informationen Umgang mit meinem Problem in der offiziellen bs-Dokumentation finden).
<div class="extra mark">
<p></p>
<p>
"Introduction with text"
</p>
<p>
<span style=light-height: 1.6em;">
"Another words for introduction"
</span>
</p>
<p>
"Final part of introduction"
</p>
<p>
<strong style="color: rgb(51, 102, 255); line-heigt: 20.8px;">
"This content is not available in the United States and Canada"
</strong>
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 1</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season 1"
</span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 2</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season2"
<span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 3</span>
</p>
</h3>
<p></p>
<p>
"Description of season 3"
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 4</span>
</p>
</h3>
<p></p>
<p>
"Description of season 4"
</p>
<p></p>
<div class="MenuBlind">
....
</div>
</div>
Vielen Dank, Bill! –
Sie sind herzlich willkommen, Tim. –