Ich hatte Cracling eine E-Commerce-Website mit Scrapy und die Crawling-Geschwindigkeit, die ich bekomme ist 50 ~ 60 Seiten/Minute. Ich benutze 8-Core-Linode-Server mit 24 GB Ram, also glaube ich nicht, Netzwerk oder Server könnte der Grund sein.Scrapy Crawling Geschwindigkeit ist langsam
Ich bin bewusst, dass die einige Websites herunterladen Latenz geben, wenn wir sie zu oft kriechen, aber das ist eine große Website und ich bin mit proxymesh Proxies zu, so könnte dies auch nicht möglicherweise der Grund sein.
Ich glaube, ich etwas in settings.py Datei bin fehlt -
BOT_NAME = 'scraper'
SPIDER_MODULES = ['com.crawler.scraper.spiders']
NEWSPIDER_MODULE = 'com.crawler.scraper.spiders'
ITEM_PIPELINES = {
'com.crawler.scraper.pipelines.generic_pipeline.Pipeline': 300
}
RANDOMIZE_DOWNLOAD_DELAY = False
COOKIES_ENABLED = False
CONCURRENT_ITEMS = 200
CONCURRENT_REQUESTS=50
DOWNLOAD_DELAY= 0
CONCURRENT_REQUESTS_PER_DOMAIN=50
LOG_LEVEL = 'ERROR'
RETRY_TIMES = 2
CONNECTION_TIMEOUT = 30
USER_AGENT_LIST = 'user_agents.txt'
DOWNLOADER_MIDDLEWARES = {
'random_useragent.RandomUserAgentMiddleware': 400,
'com.crawler.scraper.middlewares.proxy_middleware.ProxyMiddleware': 410,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
ich von DOWNLOAD_DELAY gestartet 5 und jetzt sogar habe ich es als 0 gehalten, aber dennoch konnte ich keine signifikante Veränderung sehen in die Anzahl der Anfragen pro Minute.
Also, meine Fragen sind ->
1) Was kann ich tun, um die Geschwindigkeit zu mindestens 200 Anfragen/min zu erhöhen? 2) Was sollte der ideale Wert für CONCURRENT_ITEMS sein?
Wie hoch ist die durchschnittliche Antwortzeit für eine einzelne Seite? 50-60 U/min ist bereits erhebliche Belastung für einen einzelnen Client. – jordanm
Aber wenn ich dynamische Proxies verwende, kann die Website nicht erkennen, dass die Anfragen vom gleichen Client kommen, und die Website ist Amazon, und ich habe gesehen, wie andere mit einer viel höheren Geschwindigkeit crawlen, @jordanm – sagar
Ist die [AutoThrottle Erweiterung] (https://docs.scrapy.org/en/latest/topics/autothrottle.html) ein oder aus? Sie können es deaktivieren und prüfen, ob es einen Unterschied macht. –