Ich kratze eine Website und nach dem Abrufen jeder Seite, speichere ich die Seite in einer HTML-Datei. Wenn ich den Inhalt in einer HTML-Datei abspeichere, speichert er auch die Bilder und es verbraucht meinen ganzen Speicher. Gibt es trotzdem, dass ich die Dateien ohne die Bilder speichern kann? HierScraping und Speichern von HTML-Dateien ohne Bilder in Python
ist der Code:
for url in xrange(all_urls):
driver.get(url)
page = driver.page_source
f = open(url.replace('/','_') +'.html' , 'w')
f.write(page.encode('utf-8'))
f.close()
time.sleep(uniform(2, 5))
Versuchen Sie, die gesamte Website zu spiegeln? Kannst du etwas Code posten? –
Ich spiegele nicht die ganze Seite, aber ich habe sehr begrenzten Speicherplatz. Im Moment ist jede Datei ungefähr 600K groß. – Erin
Überprüfen Sie die Erweiterung von "URL". Verwenden Sie eine Whitelist (html, php, asp, etc), um zu prüfen, ob Sie den Inhalt speichern möchten. –