2016-11-19 9 views
0

Ich bin auf der Suche nach einer Möglichkeit, nur die Bilder zu cachen, die geschabt werden.Scrapy Cache nur Bilder

Ich habe die HTTPCACHE_ENABLED und bin derzeit die Umsetzung der scrapy extention: FilesystemCacheStorage

Aber jetzt speichert es alle URLs, die geschabt erhalten, während nur diejenigen, die an die Bild-Pipeline gehen sollte zwischengespeichert werden. Eine andere Lösung wäre eine Methode, die Seite zwischenzuspeichern, aber immer noch eine Überprüfung durchzuführen, ob sich der abgekratzte Wert seit dem letzten Scrape geändert hat und die Bilder ignoriert.

Ich habe HTTPCACHE_IGNORE_SCHEMES versucht, aber ich bin nicht sicher, wie ich in diesem Schemes

Antwort

0

Nach einigen Graben in der Dokumentation meines url_list Element direkt i, dass standardmäßig fand es eine DummyPolicy verwendet und auf den RFC2616 Wechsel hat genau das gemacht, wonach ich gesucht habe.

Scrapy Documentation RFC2616