2017-11-15 3 views
0

Ich bin dabei, einen (früher) funktionierenden Website Crawler zu aktualisieren. Es scheint, dass die Website, auf der ich gecrawlt bin, strengere Verbotsregeln eingeführt hat, weshalb ich begonnen habe, Crawlera als einen Versuch zu verwenden, dieses Problem zu umgehen.Crawlera Ban Regeln für Scrapy anpassen

Das Problem, das ich derzeit habe, ist, dass die Zielwebsite eine nicht standardmäßige banning-Methode verwendet, eine 302 zu einer Standard-HTML-Seite zu tun. Crawlera erkennt dies nicht als ein Verbot und stoppt sofort den Crawl. Kann ich irgendwie anpassen, was Crawlera als Verbot erkennt, oder muss ich einen anderen Ansatz prüfen?

Antwort

2

Ich denke, dass Sie sie bitten können, diese Regel in ihr System einzufügen, und sie sollten Ihnen je nach Ihrem Plan auch eine Möglichkeit bieten, Ihre eigenen Regeln anzupassen (immer noch, Sie können ihre Unterstützung fragen, ich bin mir nicht ganz sicher) .

Ich würde sagen, dass ist Ihre beste Wette, wenn nicht, würde ich empfehlen, Ihre eigenen Downloader Middlewares zu versuchen, wenn diese Umleitung geschieht. Was crawlera tut, wenn sie ein Verbot bekommen, ist n mehr Male zu wiederholen (Sie können das auch auf den Überschriften einstellen), also müssen Sie Wiederholungen zu 0 einstellen und diese selbst handhaben abhängig davon, welche Antwort Sie erhalten.

+0

Das ist völlig richtig, endete mit der Auflösung dieses über ein Support-Ticket und sie konnten diese Regel zu ihrem System hinzufügen. – Miek

Verwandte Themen