2016-05-01 4 views
0

Gibt es ein Scrapy-Modul zum Erstellen von Referrerketten beim Crawlen von URLs?Referenz-URL-Ketten beim Crawlen von Daten durch Scrapy erstellen?

Lässt zum Beispiel sagen, dass ich meine Crawl von http://www.example.com und bewegen zu http://www.new-example.com beginnen und dann http://www.new-example.com-http://very-new-example.com.

kann ich eine URL Ketten (CSV- oder JSON-Datei) wie folgt aus:

http://www.example.com, http://www.new-example.com 
http://www.example.com, http://www.new-example.com, http://very-new-example.com 

und so weiter, wenn es im Moment verfügbar kein Modul oder Umsetzung ist dann, was andere Optionen kann ich versuchen?

+0

Es gibt keine aktuelle Implementierung für das Innere scrapy selbst, müssten Sie jede URL mit einem Callback aufrufen, die 'Referer' unterstützt. Von dem, was ich sehe, könntest du einfach die Bibliothek 'requests' benutzen und deine URLs in einem Skript mit einer for-Schleife ausführen. – eLRuLL

Antwort

0

Ja, Sie können Verweise verfolgen, indem Sie eine globale Liste erstellen, die z. B. mit allen Methoden zugänglich ist.

referral_url_list = [] 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

def call_back1(self, response): 
    self.referral_url_list.append(response.url) 

nach Fertigstellung die Spinne signals von Spider erfasst wird. Sie können schreiben csv oder json Datei in Signalfunktion

Verwandte Themen