2017-02-13 1 views
-1

Hallo nochmal, ich bin auf dem C10-Plan und versuche, Amazon Website zu kratzen;gecrawled (200) aber nicht gekratzt - Crawlera

Ich habe dieses Problem, dass manchmal Log sagt, eine Website wird gecrawlt, aber dann wird es nicht kratzen die Daten, die ich wollte, und es springt auf der nächsten Seite, wie ich angewiesen. von einigen Seiten würde es von einigen kratzen, ich werde es nicht verstehen. Wie ich den Code und die HTML der URL überprüft habe und es gibt Sachen, die auf den Seiten gekratzt werden sollen, die es krabbelt, aber kratzte nicht. Kann mir jemand helfen zu verstehen, was los ist? Ich dachte, dass die Website vielleicht ein Captcha zurückschicken würde, aber selbst dann dachte ich, dass crawlera automatisch die Anfragen wiederholt, für die es Captcha erhält.

Im Folgenden finden Sie das Protokoll:

'time': '2017-02-12', 
'title': u'Basic GIS Coordinates, Second Edition', 
'url': u'https://www.amazon.com/Basic-GIS-Coordinates-Second-Sickle/dp/1420092316/ref=sr_1_64?s=tradein-aps&srs=9187220011&ie=UTF8&qid=1486932384&sr=1-64'} 
2017-02-12 14:46:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None) 
2017-02-12 14:46:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s//s/ref=sr_nr_n_2/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A52187011&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541> (referer: None) 
2017-02-12 14:46:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011> (referer: https://www.amazon.com/s//s/ref=sr_nr_n_3/153-6246827-9833634?srs=9187220011&fst=as%3Aoff&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&bbn=227541&ie=UTF8&qid=1486860051&rnid=227541) 
2017-02-12 14:46:44 [scrapy.log] DEBUG: successfully added! 
2017-02-12 14:46:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.amazon.com/s/ref=sr_pg_2/153-6246827-9833634?bbn=227541&fst=as%3Aoff&ie=UTF8&page=2&qid=1486932385&rh=n%3A283155%2Cn%3A%211000%2Cn%3A173507%2Cn%3A173515%2Cn%3A227541%2Cn%3A13735&srs=9187220011> 
{'currency': u'$', 
+1

Wie Sie einen Crawlera-Plan haben, würde ich vorschlagen, direkte Hilfe in [ihrer Support-Seite] (https://support.scrapinghub.com) – eLRuLL

Antwort

0

Wie Sie amazon kriechen würde meine Vermutung sein, dass Sie anstelle einer normalen Produktseite einer „Captcha“ Seite bekommen.

Vielleicht sollten Sie den Inhalt Ihrer Antwort drucken, anstatt nur Elemente zurückzusenden, dann sind Sie sich sicher, welche Seite genau gecrawlt wird.

+0

Yeah hatte ich andere Post über das gleiche Problem und jemand schlug vor, dass es sein könnte ein Captcha-Problem, also habe ich versucht, crawlera zu verwenden, da sie damit umgehen, aber ich bekomme immer noch das gleiche Verhalten. Danke für den Vorschlag, dass ich weitermachen werde und einen Inhalt wie den von dir vorgeschlagenen ausdrucken werde, um zu verstehen, was vor sich geht. Obwohl was für jede Seite üblich wäre? Wie sollte ich versuchen zu drucken? –

+0

Versuchen Sie response.body oder etwas ähnliches, es lesbar zu bekommen, wenn es nicht – Hosni

+0

isnt response.body das gesamte HTML-Skript zurückgibt? In diesem Fall würde ich viel drucken und nicht viel sehen können. Ich meine, es wäre überfüllt. Was meinst du damit, es lesbar zu machen? wie kann ich das machen? –

Verwandte Themen