2014-01-05 11 views
6

Ich arbeite an einem Webscraping-Projekt, und ich habe Probleme mit Cloudflare Scrapshield. Weiß jemand, wie man das schafft? Ich benutze den Selen-Webdriver, der von Scrapshield auf eine Lightspeed-Seite umgeleitet wird. Errichtet mit Python auf firefox. Beim normalen Browsen wird es nicht umgeleitet. Gibt es etwas, das Web-Treiber anders als ein normaler Browser tut?Umgehung Cloudflare Scrapeshield

+0

Boo, zischen re: bitten um Hilfe bei der Umsetzung entgegen den Wünschen des Inhaltseigentümers. –

Antwort

1

Sehen Sie, was scrapshield prüft, ob Sie einen echten Browser verwenden, es überprüft im Wesentlichen Ihren Browser auf bestimmte Fehler in ihnen. Nehmen wir an, dass Chrome IFrame nicht verarbeiten kann, wenn gleichzeitig ein 303 error in der Leitung ist. Bestimmte Webbrowser reagieren unterschiedlich auf verschiedene Tests. Daher muss der Webdriver nicht auf diese reagieren und das System sagen: "Wir haben einen Eindringling. ändere die Seite! ". Ich könnte richtig sein, nicht 100% sicher, aber ...

Mehr Infos auf Quelle:

ich die meisten dieser Informationen auf einem Defcon Vortrag über Web-Sniffer gefunden und sie immer die richtige Verwundbarkeit Informationen über die Verhütung Server, hat er auch eine Webbrowser-ID in PHP erstellt.

+0

Erinnern Sie sich an den Namen des Vortrags oder Moderators? War diese Defcon in diesem Jahr? Ich weiß, dass Defcon die meisten ihrer Gespräche auf Youtube stellt, damit ich sie finden kann. Danke vielmals. – Namrop

+0

Ich fand es auf youtube: http://youtu.be/I3pNLB3Cq24 hoffentlich funktioniert der Link, aber es ist ein wenig über defensive Manöver gegen Skript Kiddies und Scanner durch Web-Browser-Erkennung. –

-2

"Ich benutze Selen-Webdriver, der von Scrapeshield auf eine Lightspeed-Seite umgeleitet wird." - So funktioniert Scrapeshield nicht.

Außerdem würde ich vorschlagen, dass dieser Thread geschlossen wird, da Sie um Hilfe bitten, eine Sicherheitsfunktion zu umgehen, die ein Websitebesitzer absichtlich auf seiner Website aktiviert hat, um Personen daran zu hindern, ihren Inhalt zu scrappen.