Crawlen umgeleitete URLs mit scrapy

Ich versuche, scrapy zum Crawlen www.mywebsite.com10 zu verwenden.Crawlen umgeleitete URLs mit scrapy

www.mywebsite.com ist auf einem kostenlosen Host mit der URL www.mywebsite.freehost.com gehostet. Ich leite den kostenlosen Host auf meine kostenpflichtige Domain um.

Das Problem hier ist, dass scrapy ignoriert die Umleitung und das Endergebnis ist, dass 0 Seiten sind gekratzt.

Wie kann ich scrapy sagen, dass ich es brauche, um die umgeleitete URL zu crawlen? Ich brauche es nur die umgeleiteten URL und nicht andere URLs zu crawlen, die (wie Facebook-Seiten usw.)

2016-11-27 14:48:42 [scrapy] INFO: Spider opened 
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023 
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None) 
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net> 
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished) 
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats:

Quelle

2016-11-27 user3702643

Die Protokolle zeigen, aus der Website führen, dass Ihre Anfrage gefiltert wird:

DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>

Fügen Sie diese Domain freehost.net zu Ihrer allowed_domains Liste hinzu oder entfernen Sie allowed_domains von Ihrem Spider, um jede Domain zuzulassen.

Quelle

2016-11-27 14:02:28 eLRuLL

Crawlen umgeleitete URLs mit scrapy

Antwort

Verwandte Themen