Ich würde nicht gerne crawlen Wenn das gleiche wie crawl Daten zuvor in scrapy Rahmen.Wie nicht crawlen Wenn das gleiche wie crawl Daten zuvor in scrapy Rahmen
Um dieses Problem zu lösen, denke ich, dass nach dem Crawl Datum-Uhrzeit in die Datenbank geschrieben wurde und nicht gecrawlt wird, wenn Last-Modified Response HTTP seit diesem Datum-Zeit nicht aktualisiert wurde.
Meine Fragen sind die folgenden zwei.
- Wie denkst du über diese Art? Gibt es bessere Idee?
- Können Sie mir beibringen, ob es einen Code gibt, der auf die Last-Modified-HTTP-Antwort mit Scrapy-Framework verweisen kann?
Vielen Dank für das Lesen meiner Frage.
Verwenden 'Last-Modified' ist eine gute Idee. Sie können den Antwortheader über 'response.headers' abrufen. – stamaimer