Neu in der ProgrammierungScrapy, kann keine Seite crawlen: "Zeitüberschreitung der TCP-Verbindung: 110: Zeitüberschreitung der Verbindung."
Inhalt kann nicht von einer Domäne gescannt werden, die zur selben Website gehört.
Zum Beispiel kann ich it.example.com, es.example.com, pt.example.com kratzen, aber wenn ich versuche, das gleiche mit fr.example.com oder us.example.com zu tun, bekomme ich :
2017-12-17 14:20:27 [scrapy.extensions.telnet] DEBUG: Telnet console
listening on 127.0.0.1:6025
2017-12-17 14:21:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages
(at
0 pages/min), scraped 0 items (at 0 items/min)
2017-12-17 14:22:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages
(at
0 pages/min), scraped 0 items (at 0 items/min)
2017-12-17 14:22:38 [scrapy.downloadermiddlewares.retry] DEBUG:
Retrying
<GET https://fr.example.com/robots.txt> (failed 1 times): TCP
connection
timed out: 110: Connection timed out.
Hier ist die Spinne some.py
import scrapy
import itertools
class SomeSpider(scrapy.Spider):
name = 'some'
allowed_domains = ['https://fr.example.com']
def start_requests(self):
categories = [ 'thing1', 'thing2', 'thing3',]
base = "https://fr.example.com/things?t={category}&p={index}"
for category, index in itertools.product(categories, range(1, 11)):
yield scrapy.Request(base.format(category=category, index=index))
def parse(self, response):
response.selector.remove_namespaces()
info1 = response.css("span.info1").extract()
info2 = response.css("span.info2").extract()
for item in zip(info1, info2):
scraped_info = {
'info1': item[0],
'info2': item[1]
}
yield scraped_info
Was ich versucht habe:
Führen Sie die Spinne aus einem anderen IP (gleiches Problem mit den gleichen Domänen)
einen Pool von IP-Adressen hinzufügen (funktionierte nicht)
irgendwo Gefunden auf Stackoverflow: in setting.py, Set
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537,36 (KHTML, wie Gecko) Chrom/55.0.2883.95 Safari/537,36'
ROBOTSTXT_OBEY = False
Jede Idee ist willkommen!
haben Sie diese URL im Browser heute überprüft? vielleicht Server hat heute ein Problem und es funktioniert nicht. – furas
Zuerst Browser einchecken und dann scrapy sehen. Einige Sites erfordern spezifische Länder-IPs –
Die Website ist online und ich kann von meinem aktuellen Standort aus problemlos darauf zugreifen – Rawhide