2017-08-22 14 views
0

Ich versuche, eine Website durch Scrapy in der Schale zu bekommen,Fehler beim Abrufen von Webseiten mit Scrapy

$ scrapy shell -s NAME="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a" 

2017-08-21 20:55:07 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (failed 3 times): 504 Gateway Time-out 

aber Scrapy durch mich einen 504 Fehler, die ich nicht herausfinden kann, denke jeder, was es sein könnte ?.

Antwort

0

Sie wurden verboten oder so ähnlich. Versuchen Sie es mit einer anderen IP-Adresse. Auf meinem Computer gibt es das:

2017-08-22 00:07:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None) ['partial'] 
1

Sie wahrscheinlich versuchen, User-Agent-String auf der Kommandozeile zu setzen, aber falsche Einstellung mit (NAME). Versuchen Sie es mit:

$ scrapy shell -s USER_AGENT="Mozilla/5.0" "http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a" 

wie die, die ich erhalten:

2017-08-22 07:40:30 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.yapo.cl/chile/inmuebles?ca=15_s&l=0&cmn=&st=a> (referer: None)