Ich versuche, eine Seite zu kratzen BeatifulSoup mitScrape nur der Text innerhalb eines HTML-Elements, das eine Klasse hat, mit schöner Suppe
import urllib2
from bs4 import BeautifulSoup
url='http://www.xpn.org/playlists/xpn-playlist'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for link in soup.find_all("li", class_="song"):
print link
Das Problem ist der Text Ich mag würde, wird nicht zurückkehren eingeschlossen in einem eigenen hTML-Tag
<li class="song"> <a href="/default.htm" onclick="return clickreturnvalue()
" onmouseout="delayhidemenu()" onmouseover="dropdownmenu(this, event, menu1,
'100px','Death Vessel','Mandan Dink','Stay Close')">Buy</a>
Chuck Ragan - Rotterdam - Folkadelphia Session</li>
Was ich Chuck Ragan - Rotterdam - Folkadelphia Session
Bonuspunkte zurückkehren wollen: die zurückgegebenen Daten des Formats Künstlers/Lied/A lbum. Was wäre die richtige Datenstruktur, um diese Informationen zu speichern und zu bearbeiten?
Thanks man! Wie genau funktioniert [5:]? –
Das sind die ersten 5 Zeichen entfernen. siehe [diese Frage] (http://stackoverflow.com/questions/509211/explain-pythons-slice-notation). –
Und über * Was wäre die richtige Datenstruktur zum Speichern und Bearbeiten dieser Informationen? *, Vielleicht Datenbank verwenden? –