können Sie requests
verwenden, um die HTML zu bekommen und dann BeautifulSoup
verwenden es zu analysieren. Der folgende Text sucht nach einem HTML-Kommentar direkt vor dem Beginn des Texts im HTML-Code und sucht dann nach dem übergeordneten Element <div>
, in dem er enthalten ist. Aus, dass der Text extrahiert werden können:
import requests
from bs4 import BeautifulSoup, Comment
r = requests.get("https://www.azlyrics.com/lyrics/runthejewels/closeyoureyesandcounttofuck.html", headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'})
soup = BeautifulSoup(r.content, "html.parser")
for comment in soup.find_all(string=lambda text:isinstance(text, Comment)):
if "Usage of azlyrics.com content" in comment:
print comment.parent.text
Dies würde Ihnen etwas Start geben:
[Zack De La Rocha:]
Run them jewels fast, run them, run them jewels fast
...
können diese Bibliotheken, wenn Sie wie folgt vor Bedarf installiert werden:
so etwas wie beautifulsoup
pip install beautifulsoup4
pip install requests
Scheck, lxml, Anfragen oder scrapy für Beispiele. – eLRuLL