ich eine 302-Antwort von einem Server erhalte, während eine Website Verschrottung:wie zu handhaben 302-Umleitung in scrapy
2014-04-01 21:31:51+0200 [ahrefs-h] DEBUG: Redirecting (302) to <GET http://www.domain.com/Site_Abuse/DeadEnd.htm> from <GET http://domain.com/wps/showmodel.asp?Type=15&make=damc&a=664&b=51&c=0>
Ich mag Anfrage senden Urls GET statt umgeleitet zu werden. Jetzt fand ich diese Middleware:
https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/downloadermiddleware/redirect.py#L31
ich diese Umleitung Code meiner middleware.py Datei hinzugefügt und fügte ich diese in settings.py:
DOWNLOADER_MIDDLEWARES = {
'street.middlewares.RandomUserAgentMiddleware': 400,
'street.middlewares.RedirectMiddleware': 100,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}
Aber ich bin immer noch umgeleitet zu werden. Ist das alles, was ich tun muss, damit diese Middleware funktioniert? Vermisse ich etwas?
Sie werden Sie wahrscheinlich endlos umleiten, um Sie davon abzuhalten, die Seite zu scrappen. Zumindest glaubt mir das die URL. – elbear
Ja, das ist offensichtlich ihre Teilnahme und der Grund, warum ich diese Frage gestellt habe. Es ist keine Endlosschleife, es ist einfach eine 302-Weiterleitung, die ursprüngliche URL wird immer noch als GET empfangen: von und das ist die URL, an die ich meine Anfrage senden möchte. Soweit ich das lesen kann, ist das möglich und ich habe ein Skript dafür gefunden, aber aus irgendeinem Grund funktionieren meine Einstellungen nicht. –
mrki
Ich meinte nicht, dass es eine Endlosschleife ist. Ich meinte, dass du jedes Mal, wenn du eine Anfrage machst, umgeleitet wirst, also weigern sie sich, dir den Inhalt zu geben. – elbear