Ich verwende BeautifulSoup
(Parser) mit urllib.request.urlopen()
, um Textinformationen von einer Website zu erhalten. Wenn ich jedoch den Netzwerkbereich in meinem Aktivitätsmonitor überprüfe, sehe ich, dass Python viele Daten herunterlädt. Dies deutet darauf hin, dass nicht nur der Text heruntergeladen wird, sondern auch die Bilder.Vermeiden Sie das Herunterladen von Bildern mit Beautifulsoup und urllib.request
Ist es möglich, das Herunterladen von Bildern beim Webscraping mit BeautifulSoup zu vermeiden?
? Kannst du tatsächlich den Rohbild-Bytecode sehen, der in deiner Antwort geschrieben wurde? Ansonsten bin ich nicht sicher, warum Sie Bilder herunterladen würden. Bilder werden normalerweise separat in einem '' mit 'src'-Attribut gespeichert - HTML-Scraper enthalten einen Link zu dem Bild, das als Text dargestellt wird, aber nicht das Herunterladen des Bildes erzwingt, weil Sie ihm nie gesagt haben, dem Link zu folgen. –
Ich vermute, die Seite hat einfach mehr Daten, als Sie denken sollten. Inline JS kann einen Schlag einstecken. –
Ich überprüfte das 'Suppe' Ergebnis und speicherte es in einer Textdatei. Sie haben Recht, es war 256 kB und es gab '' Attribute, die zu den tatsächlichen Bildern verbinden. Danke für deine Hilfe Akshat! – Frits