Ich versuche, von der <span class= ''>
zu verschrotten. Der Code sieht wie folgt auf den Seiten Ich Verschrottung:BeautifulSoup Scrapping Span Class HTML
< span class = "catnum"> Disc Number </span>
"1"
<br>
< span class = "catnum"> Track Number </span>
"1"
< br>
< span class = "catnum" > Duration < /span>
"5:28"
<br>
Was ich brauche, sind die Zahlen nach dem </span>
Tag zu bekommen. Ich sollte auch erwähnen, dass ich ein größeres Stück Code schreibe, das 1200 Seiten verschrottet und dabei über 1200 Seiten durchlaufen muss, wo sich die Zahlen in den Anführungszeichen von Seite zu Seite ändern.
habe ich versucht, diesen Code als Test auf einer Seite:
from bs4 import BeautifulSoup
soup = BeautifulSoup (open("Smith.html"), "html.parser")
for tag in soup.findAll('span'):
if tag.has_key('class'):
if tag['class'] == 'catnum':
print tag.string
Ich weiß, dass all ‚span class‘ Tags gedruckt werden und nicht nur die drei, die ich will, aber ich dachte, dass ich es noch testen würde um zu sehen, ob es funktioniert hat und ich habe diesen Fehler:
/Library/Python/2.7/site-packages/bs4/element.py:1527: UserWarning: has_key is deprecated. Use has_attr("class") instead. key))
'[span.next_sibling.strip() für Spanne in soup.select ("span.catnum")]' –