Meine Forderung ist es, alle URL in sitemap.xml zu bekommen, tut scrapy sitemapspider Klasse die Aufgabe, aber es auch versuchen, die Seiten zu analysieren, die das Crawling, wie es langsam machen versuchen, die gesamten zum Download Seite.Wie in Scrapy SitemapSpider analysieren zu stoppen
Gibt es einen Weg, einfach die URL des zu bekommen, ohne in jedem von ihnen zu gehen.
Ich denke, man Link-Extraktor verwenden können, die nur die Links auf der Seite extrahiert und sie nicht herunterladen. Später können Sie diese Daten in eine Datei oder etwas ausgeben. - http://doc.scrapy.org/en/latest/topics/link-extractors.html –
Könnten Sie ein bisschen mehr klären, was Sie tun wollen? Sie möchten zu sitemap.xml gehen und alle Links daraus extrahieren? – Granitosaurus
ja Granitosaurus –