2016-11-11 1 views
2

Websites wie Crunchbase und Glassdoor sind alle durch Distil Networks geschützt. Gibt es Möglichkeiten, programmgesteuert Daten von diesen Websites abzurufen? Ich habe Scrapy + Splash probiert, aber irgendwie können sie das erkennen. Gibt es andere Möglichkeiten, Ihre Anfragen/JavaScript-Validierung von einem Browser zu unterscheiden?Crawlen von Crunchbase mit Bot-Schutz (Distil Networks)?

Antwort

3

Nun, das ist vielleicht nicht die richtige Antwort und ein bisschen zu spät, aber versuchen Sie einfach, Browser mit Fiddler (mein Favorit) zu verfolgen, und überprüfen Sie URLs, Header, Cookies mit destill Tags, Header, Cookies .. Sie werden sehen Js Anfragen mit Abfrage params PID = .....

zum Beispiel: enter image description here Yellow collored Anfragen ist ein Teil dessen, was ich bekommen, wenn nach ‚destillieren‘ in Fiedler .. als nächstes erste Anfrage, die Sie dort sehen "/trsnsvdstl-ce.js" Wenn Sie Quelle überprüfen würden, würden Sie die lange PID = ... Nummer und X-Distil-Ajax Header, auch, Sie können in a sehen a viel von c ookies containeint D_XXX = Und ich denke, was am wichtigsten ist, können Sie Parameter p = sehen, wenn Sie die gleichen Anfragen machen, und dann UrlDecode p, würden Sie es interessant finden, es hat viele Ihrer Maschinenparameter, wie Werkzeuge Sie habe in deinen Browsern, Auflösung, etc .. es ist ein Fingerabdruck ..

Nun, an dieser Stelle kann ich nicht mehr beantworten, fing nur an, in diese zu graben. Auch, was hilft viel, aber Kosten Geld ist GOOD prox'ys, ich spreche nicht über freie, langsame, ich spreche über etwas wie Amazon Wolken, wo Sie Anonymität Ebene setzen können, so sogar Destillat konnte nicht sehen, wenn es ein Proxy ist.

Also, das ist es für jetzt, Entschuldigung für mein Shi * ty Englisch und viel Glück! :)

+0

Meine Erfahrung ist, dass die Proxies zuerst arbeiten, aber schnell aufhören zu arbeiten und umgeleitet werden – eusid