Das Layout ist wie folgt:beautifulsoup - Extrahieren Link, Text und Titel innerhalb Kind div
<div class="App">
<div class="content">
<div class="title">Application Name #1</div>
<div class="image" style="background-image: url(https://img_url)">
</div>
<a href="http://app_url" class="signed button">install app</a>
</div>
</div>
Ich versuche, den Titel zu holen, dann die APP_URL und im Idealfall, wenn ich über html drucken, I möchte, dass der TITLE eine Hyperlink von APP_URL wird.
Mein Code ist so, aber liefert keine Wunschergebnisse. Ich glaube, ich muss einen weiteren Befehl innerhalb der Schleife hinzufügen, um den Titel zu greifen. Das einzige Problem ist, wie stelle ich sicher, dass ich die TITLE und APP_URL ergreife, so dass sie zusammen gehen? Es gibt mindestens 15 Apps mit der Klasse <div class="App">
. Natürlich möchte ich alle 15 Ergebnisse auch.
WICHTIG: für die href-Links, ich brauche es aus der Klasse "signed button"
.
soup = BeautifulSoup(example)
for div in soup.findAll('div', {'class': 'App'}):
a = div.findAll('a')[1]
print a.text.strip(), '=>', a.attrs['href']
Ich erhalte diesen Fehler: 'supp = BeautifulSoup (my_url, 'html5lib') Datei" /Library/Python/2.7/site-packages/beautifulsoup4-4.6.0-py2.7.egg/bs4/__init__.py ", Zeile 165, in __init__ bs4.FeatureNotFound: Es wurde kein Tree Builder mit den von Ihnen angeforderten Features gefunden: html5lib. Müssen Sie eine Parser-Bibliothek installieren? 'Wenn ich jedoch html5lib pip installiere, bekomme ich folgende Meldung:' Anforderung bereits erfüllt: ' –
Es funktioniert sogar ohne:' supp = BeautifulSoup (html) ' – Jan
können wir einen privaten Chat machen ? –