Scrapy - Wie man die Start-URL verfolgt

Angesichts eines Pools von Start-URLs möchte ich in der parse_item() - Funktion die Ursprungs-URL identifizieren.Scrapy - Wie man die Start-URL verfolgt

Soweit ich betroffen bin, kriechen die Scrapy-Spider aus dem anfänglichen Pool von Start-URLs, aber beim Parsen gibt es keine Spur davon, welche dieser URLs die ursprüngliche war. Wie wäre es möglich, den Ausgangspunkt zu verfolgen?

Quelle

2016-09-19 manelmc

Wenn Sie eine Parsing-URL innerhalb der Spinne benötigen, nur response.url verwenden:

def parse_item(self, response): 
    print response.url

aber falls Sie es außerhalb Spinne muss ich von folgenden Möglichkeiten denken kann:

Verwenden scrapy core api
Sie können auch scrapy von einem externen python-Modul mit OS-Befehl aufrufen (die offenbar nicht zu empfehlen):

in scrapycaller.py

from subprocess import call 
urls = 'url1,url2' 
cmd = 'scrapy crawl myspider -a myurls={}'.format(urls) 
call(cmd, shell=True)

Innen myspider:

class mySpider(scrapy.Spider): 
    def __init__(self, myurls=''):    
     self.start_urls = myurls.split(",")

Quelle

2016-09-19 14:25:46 PHA

Scrapy - Wie man die Start-URL verfolgt

Antwort

Verwandte Themen