Zum Beispiel hatte ich eine Website "www.example.com"
Eigentlich möchte ich die HTML dieser Website durch Speichern auf lokale System kratzen. so zum Testen gespeichert i die Seite auf meinem Desktop als example.html
Scraping die Datei mit HTML im lokalen System gespeichert
Jetzt i dafür, wie unten
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
die Spinne Code geschrieben hatte, aber wenn ich laufe den obigen Code ich diese Störung erhalte, wie unten
ValueError: Missing scheme in request url: example.html
Schließlich meine Intension ist es, die example.html
Datei zu kratzen, die www.example.com
hTML-Code besteht aus
Kann jemand mir empfehlen, wie in start_urls
Vielen Dank im Voraus
Sie können die HTTP Cache Middleware aktivieren, die auf Ihrer Festplatte gespeichert wird. Sie können grundsätzlich einen vorherigen Scrape-Lauf wiederholen, abhängig von dem Zeitlimit, das Sie für die HTTP-Cache-Middleware festgelegt haben. –
@Sjaak Trekhaak: Danke für deine Antwort, kannst du mir ein Beispiel geben, so dass es hilfreicher ist –
Ich bin mir nicht sicher, aber du kannst versuchen: 'start_urls = [" file: /// home/local/cname/username/project/scrapy_project_modules/example/example.html "]' – warvariuc