Ich arbeite an einem Scraping-Projekt mit Scrapy. Ich plane, einen Cache (Wörterbuch) der Gegenstände, die geschabt werden, unter Verwendung einiger der Gegenstandeigenschaften (abhängig von einigen Kriterien) zu implementieren, und dieser Zwischenspeicher wird schließlich als eine Akte auf der Scheibe gespeichert. Wenn scrapy gestartet wird, kann ich die Funktion spider_closed in piple.py verwenden, um den Cache aus der Datei zu laden und den geänderten Cache während des Schließens von scrapy (mit der Funktion spider_closed) zurück in die Datei zu laden. Während die Objekte gecrackt werden, wird der Cache geändert. Elemente werden zum Cache hinzugefügt, wenn die Elemente eindeutig sind. In pipelines.py, kann ich eine Variable myCache erstellen Sie den Cache aus dem Cache-Datei zu laden:Scrapy Pass Objekt von der Pipeline zu Spider
mycache = load_from(cache_file)
Aber ich weiß nicht, wie myCache von pipelines.py zu mySpider.py passieren, so dass sie beide teilen eine einzelne Kopie von Mycache.
Irgendwelche Vorschläge?