Seit einem Monat verwende ich Scrapy für ein Web-Crawling-Projekt, das ich begonnen habe.Beste Web-Grafik-Crawler für Geschwindigkeit?
Bei diesem Projekt wird der gesamte Dokumentinhalt aller Webseiten in einem einzigen Domänennamen abgerufen, der über die Homepage erreichbar ist. Mit Scrapy zu schreiben war ziemlich einfach, aber es läuft einfach zu langsam. In 2-3 Tagen kann ich nur 100.000 Seiten herunterziehen.
Ich habe festgestellt, dass meine ursprüngliche Vorstellung, dass Scrapy nicht für diese Art von Crawl gedacht ist, sich enthüllt.
Ich habe begonnen, meine Aufmerksamkeit auf Nutch und Methabot in der Hoffnung auf bessere Leistung zu konzentrieren. Die einzigen Daten, die ich während des Crawlings speichern muss, sind der gesamte Inhalt der Webseite und vorzugsweise alle Links auf der Seite (aber auch das kann in der Nachbearbeitung getan werden).
Ich bin auf der Suche nach einem Crawler, der schnell ist und viele parallele Anfragen anwendet.
Es kann auch Ihr ISP sein. –