2017-02-10 8 views
0

Ich habe eine Datei mit vielen URLs. Ich bin bereit, die Links von diesen URLs zu extrahieren und dann den Titel und Metas ihrer verschiedenen Seiten zu extrahieren.
Ich möchte wissen, wie viele URLs Scrapy Crawler gefüttert werden können, damit ich das passende Ergebnis bekomme.
Ich weiß nicht, ob Scrapy irgendwelche Einschränkungen der URL-Überprüfung und Extrahieren von Links von den URLs haben wird.
Ich weiß auch, wie ich die extrahierten Links randomisieren kann?Wie viele URLs können mit Scrapy behandelt werden?

le = LinkExtractor() 
    for link in le.extract_links(response): 
     yield scrapy.Request(link.url, callback=self.parse_inof) 

Siehe den obigen Code. Ich verwende das, um Links von den URLs zu extrahieren.
Bitte lassen Sie mich wissen, wie ich das machen kann.

Antwort

1
CONCURRENT_ITEMS 
Default: 100 

maximale Anzahl von gleichzeitigen Einzelteilen (pro Reaktion), die parallel in dem Artikel-Prozessor zu verarbeiten (auch als Punkt-Pipeline bekannt).

CONCURRENT_REQUESTS 
Default: 16 

Die maximale Anzahl der gleichzeitigen (dh simultane.) Anfragen, die durch den Downloader Scrapy durchgeführt werden, wird

bearbeiten; Altso, möglicherweise möglich zu verwenden,

import random 

list = [20, 16, 10, 5]; 
random.shuffle(list) 
print "Reshuffled list : ", list 

random.shuffle(list) 
print "Reshuffled list : ", list 

You might need to give the list urls a numeric id first. 
+0

Ich versuchte 'random'. aber ich weiß nicht, dass es in meinem Fall nicht funktioniert. Ich suche immer noch nach dem Grund. –

+0

Gibt es auch eine Grenze für die Handhabung der URL? Ich habe Crore von URL. –

+0

hast du versucht rand_item = random.choice (items)? Wenn Sie CLOSESPIDER_ITEMCOUNT auf 0 setzen, wird es für immer fortgesetzt, solange es Speicher gibt oder keine Ausnahme –

Verwandte Themen