Ich versuche, scrapy zum Crawlen www.mywebsite.com
10 zu verwenden.Crawlen umgeleitete URLs mit scrapy
www.mywebsite.com
ist auf einem kostenlosen Host mit der URL www.mywebsite.freehost.com
gehostet. Ich leite den kostenlosen Host auf meine kostenpflichtige Domain um.
Das Problem hier ist, dass scrapy ignoriert die Umleitung und das Endergebnis ist, dass 0 Seiten sind gekratzt.
Wie kann ich scrapy sagen, dass ich es brauche, um die umgeleitete URL zu crawlen? Ich brauche es nur die umgeleiteten URL und nicht andere URLs zu crawlen, die (wie Facebook-Seiten usw.)
2016-11-27 14:48:42 [scrapy] INFO: Spider opened
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None)
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished)
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats: