Block-webscrapers ist nicht einfach, und es ist noch schwieriger, versuchen, Fehlalarme zu vermeiden.
Wie auch immer, Sie können einige Netrange zu einer Whitelist hinzufügen und ihnen kein Captcha liefern. All diese bekannten Crawler: Bing, Googlebot, Yahoo usw. verwenden beim Crawlen immer bestimmte Netranges, und all diese IP-Adressen werden zu spezifischen Reverse-Lookups aufgelöst.
paar Beispiele:
Google IP 66.249.65.32 löst
Bing IP 157.55.39.139 löst zu msnbot-157- bis crawl-66-249-65-32.googlebot.com 55-39-139.search.msn.com
Yahoo IP 74.6.254.109 löst zu h049.crawl.yahoo.net
also lasst uns sagen, dass '* .googlebot.com', '* .search.msn.com' und '* .crawl.yahoo.net' Adressen der weißen Liste werden sollte.
Es gibt viele weiße Listen, die Sie im Internet implementieren können.
sagte, dass ich glaube nicht, dass Check Captcha eine Lösung gegen erweitern Schaber, da Dienstleistungen wie deathbycaptcha.com oder 2captcha.com Versprechen, jede Art von Captcha innerhalb von Sekunden zu lösen.
Bitte werfen Sie einen Blick in unser Wiki http://www.scrapesentry.com/scraping-wiki/ Wir haben viele Artikel geschrieben, wie man Web-Scraper vorbeugt, erkennt und blockiert.
Können die Screen Scraper ihre IPs außerordentlich leicht fälschen? –
Nicht, wenn die HTTP-Antwort korrekt weitergeleitet werden soll. – Josh