2017-04-05 5 views
0

Ich kratze eine Website und nach dem Abrufen jeder Seite, speichere ich die Seite in einer HTML-Datei. Wenn ich den Inhalt in einer HTML-Datei abspeichere, speichert er auch die Bilder und es verbraucht meinen ganzen Speicher. Gibt es trotzdem, dass ich die Dateien ohne die Bilder speichern kann? HierScraping und Speichern von HTML-Dateien ohne Bilder in Python

ist der Code:

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5)) 
+0

Versuchen Sie, die gesamte Website zu spiegeln? Kannst du etwas Code posten? –

+0

Ich spiegele nicht die ganze Seite, aber ich habe sehr begrenzten Speicherplatz. Im Moment ist jede Datei ungefähr 600K groß. – Erin

+0

Überprüfen Sie die Erweiterung von "URL". Verwenden Sie eine Whitelist (html, php, asp, etc), um zu prüfen, ob Sie den Inhalt speichern möchten. –

Antwort

0

Sie cURL verwenden können und Datei mit HTML-Format speichern.

+0

Wenn ich curl benutze, erkennt die Website, dass ich kratze. Also muss ich Webdriver verwenden und die Dateien speichern. – Erin