Scraping und Speichern von HTML-Dateien ohne Bilder in Python

Ich kratze eine Website und nach dem Abrufen jeder Seite, speichere ich die Seite in einer HTML-Datei. Wenn ich den Inhalt in einer HTML-Datei abspeichere, speichert er auch die Bilder und es verbraucht meinen ganzen Speicher. Gibt es trotzdem, dass ich die Dateien ohne die Bilder speichern kann? HierScraping und Speichern von HTML-Dateien ohne Bilder in Python

ist der Code:

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5))

Quelle

2017-04-05 Erin

Versuchen Sie, die gesamte Website zu spiegeln? Kannst du etwas Code posten? –

Ich spiegele nicht die ganze Seite, aber ich habe sehr begrenzten Speicherplatz. Im Moment ist jede Datei ungefähr 600K groß. – Erin

Überprüfen Sie die Erweiterung von "URL". Verwenden Sie eine Whitelist (html, php, asp, etc), um zu prüfen, ob Sie den Inhalt speichern möchten. –

Sie cURL verwenden können und Datei mit HTML-Format speichern.

Quelle

2017-04-05 17:18:27 AbdurrahmanD

Wenn ich curl benutze, erkennt die Website, dass ich kratze. Also muss ich Webdriver verwenden und die Dateien speichern. – Erin

Scraping und Speichern von HTML-Dateien ohne Bilder in Python

Antwort

Verwandte Themen