Ich crawle einige Daten mithilfe von Scrapy. Jedes Mal, wenn ich product detail im Browser öffne und überprüfe, dass vom Browser angefordert wurde, immer den gleichen korrekten Inhalt ohne Zeichen '?????'
Aber wenn ich die Anfrage oben auf Browser öffnen, dann hat es den richtigen Inhalt etwa 10 mal zurückgegeben. Dann gab es einen falschen Inhalt zurück, indem das Zeichen '?????'
Können Sie erklären, warum dieses Problem auftritt? Und wie kann Scrapy als echter Browser agieren?
Diese korrekte InhaltGET-Anforderung gibt verschiedene JSON-Inhalte zurück
{"itemid": 43369300, "liked": false, "offer_count": 6, "videos": [], "image": "41dabd8fe9b7cbc2ab30501592f65a80", "image_list": ["41dabd8fe9b7cbc2ab30501592f65a80", "91bf75885fffd2b1fbcc55099457bc22", "f4516bb9667f8329f031ff75896a71fd", "d2639a1ffe75912873de6d8e011dc0dd", "38d00637b021e1701542a6afa7ae58f3", "10ab99e3bd211bd4dd63993555d6454b"].....
Und das ist falsch Inhalt
{"itemid": 43369300, "liked": false, "offer_count": 10, "videos": [], "rating_star": 4.069458216402549, "image": "41dabd8fe9?????????????????????", "image_list": ["41dabd8fe9?????????????????????", "91bf75885f?????????????????????", "f4516bb966?????????????????????", "d2639a1ffe?????????????????????", "38d00637b0?????????????????????", "10ab99e3bd?????????????????????"].....
Sie mit anderen Anforderungen testen request1, request2 ...
Liste die URL, auf der Sie "????" und passiert es, dass es bei der gleichen URL immer wieder passiert? Auch posten Sie den Inhalt in einem Pastebin und post den Link –
Ich bearbeitet meine Frage als Ihr Kommentar @TarunLalwani –
Ich habe überprüft und im Browser 5-10 mal aktualisiert, ändert sich der Inhalt für die gleiche Anfrage. Dies ist offensichtlich Kratzschutz in Aktion. Sie müssen Proxies verwenden und Ihre Anfragen rotieren lassen. –