Ich kratze eine Website mit Scrapy und möchte die Ergebnisse in zwei Teile aufteilen. Normalerweise rufe ich Scrapy wie folgt an:Schreiben in mehrere Dateien mit Scrapy
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
Die beiden Spinnen sind völlig unabhängig und kommunizieren überhaupt nicht. Dieses Setup funktioniert für kleinere Websites, aber größere Websites haben einfach zu viele Autoren, um so zu crawlen.
Wie hätte ich die articles
Spinne sagen die authors
Spider welche Seiten zu crawlen und pflegen diese Zwei-Datei-Struktur? Im Idealfall würde ich die Autoren-URLs lieber nicht in eine Datei schreiben und sie dann mit der anderen Spinne lesen.
Ich denke, das Problem wird die Größe der Dateien sein. Diese Lösung wird nicht sehr gut skalieren (wie Sie sicher schon bemerkt haben). Hast du das schon über eine Datenbank oder -Store? Irgendeine schemalose Lösung würde mir dafür einfallen. Ich glaube nicht, dass Sie nur mit 2 riesigen Dateien zufrieden sein werden. – DrColossos