2016-11-27 24 views
1

Ich versuche, scrapy zum Crawlen www.mywebsite.com10 zu verwenden.Crawlen umgeleitete URLs mit scrapy

www.mywebsite.com ist auf einem kostenlosen Host mit der URL www.mywebsite.freehost.com gehostet. Ich leite den kostenlosen Host auf meine kostenpflichtige Domain um.

Das Problem hier ist, dass scrapy ignoriert die Umleitung und das Endergebnis ist, dass 0 Seiten sind gekratzt.

Wie kann ich scrapy sagen, dass ich es brauche, um die umgeleitete URL zu crawlen? Ich brauche es nur die umgeleiteten URL und nicht andere URLs zu crawlen, die (wie Facebook-Seiten usw.)

2016-11-27 14:48:42 [scrapy] INFO: Spider opened 
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None) 
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net> 
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished) 
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats: 

Antwort

1

Die Protokolle zeigen, aus der Website führen, dass Ihre Anfrage gefiltert wird:

DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net> 

Fügen Sie diese Domain freehost.net zu Ihrer allowed_domains Liste hinzu oder entfernen Sie allowed_domains von Ihrem Spider, um jede Domain zuzulassen.

Verwandte Themen