Ich benutze Scrapy, um einige Seiten zu crawlen. Ich hole die start_urls von einem Excel-Blatt und ich muss die URL in dem Element speichern.Wie bekomme ich das Original start_url in scrapy (vor Redirect)
class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]
def parse(self, response):
item = abcspiderItem()
item['url'] = response.url
Das Problem ist, dass die URL auf eine andere URL umgeleitet wird (und gibt somit noch etwas anderes in der Antwort-URL). Wie bekomme ich die Original-URL, die ich vom Excel bekommen habe?
Haben Sie versucht "response.request.url"? – alecxe
@alecxe: ja, habe das auch versucht, habe mir die umgeleitete URL wieder gebracht, die selbe URL, die ich von response.url bekommen habe –