Ich habe eine Datei mit vielen URLs. Ich bin bereit, die Links von diesen URLs zu extrahieren und dann den Titel und Metas ihrer verschiedenen Seiten zu extrahieren.
Ich möchte wissen, wie viele URLs Scrapy Crawler gefüttert werden können, damit ich das passende Ergebnis bekomme.
Ich weiß nicht, ob Scrapy irgendwelche Einschränkungen der URL-Überprüfung und Extrahieren von Links von den URLs haben wird.
Ich weiß auch, wie ich die extrahierten Links randomisieren kann?Wie viele URLs können mit Scrapy behandelt werden?
le = LinkExtractor()
for link in le.extract_links(response):
yield scrapy.Request(link.url, callback=self.parse_inof)
Siehe den obigen Code. Ich verwende das, um Links von den URLs zu extrahieren.
Bitte lassen Sie mich wissen, wie ich das machen kann.
Ich versuchte 'random'. aber ich weiß nicht, dass es in meinem Fall nicht funktioniert. Ich suche immer noch nach dem Grund. –
Gibt es auch eine Grenze für die Handhabung der URL? Ich habe Crore von URL. –
hast du versucht rand_item = random.choice (items)? Wenn Sie CLOSESPIDER_ITEMCOUNT auf 0 setzen, wird es für immer fortgesetzt, solange es Speicher gibt oder keine Ausnahme –