2017-08-28 5 views
0

Ich versuche, Daten von Linkedin zu crawlen, die für eine persönliche Daten Crawling Praxis verwenden. Aber ich kann die Daten nicht ohne Login crawlen. Also habe ich zwei Wege benutzt, um die Anmeldung zu simulieren. Eine ist, die Cookies von HttpClient zu bekommen, die versuchen werden, eine Simulationsanmeldung zu machen, um die Cookies zu bekommen. der andere ist nur den Cookie direkt hinzufügen. Aber ich habe beide versagt. Ich kenne den Grund nicht. Ich habe Framework Webmagic für das Crawlen von Daten verwendet. Im Allgemeinen ist das Hinzufügen von Cookies direkt ein einfacher Weg. Aber ich weiß nicht, ob ich die falschen Cookies hinzugefügt habe. Hier ist die Sache. Ich möchte Daten von der Website holen https://www.linkedin.com/mynetwork/invite-connect/connections/ Und ich habe alle Cookies auf dieser Seite hinzugefügt.Daten Crawling von Linkedin

Hier sind alle Cookies.

private Site site = Site.me().setRetryTimes(3).setSleepTime(100); 
site.setCharset("utf-8") 
    .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36") 
    .addHeader("accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8") 
    .addHeader("accept-encoding","gzip, deflate, br") 
    .addHeader("accept-language:en-US","en;q=0.8") 
    .addHeader("connection", "keep-alive") 
    .addHeader("referer","https://www.linkedin.com/") 
    .addCookie(".linkedin.com","lidc", "b=TB91:g=750:u=38:i=1503815541:t=1503895683:s=AQE5xZLW6mVmRdHBY9qNO-YOiyAnKtgk") 
    .addCookie(".linkedin.com","lang", "v=2&lang=en-us") 
    .addCookie(".linkedin.com","_lipt", "CwEAAAFeIo5-jXjgrpSKF4JfxzNbjC6328JPUgtSHQIKtSDyk4Bockuw84uMkCwbKS0TzUOM_w8Al4s9YjFFF-0T43TPtfG_wv-JNVXsPeO8mVxaYwEcTGiyOdyaRZOCIK7qi02EvZUCtjsaTpAos60U4XrFnu1FO-cY1LrzpqDNUmfrqWJPjSoZpOmjeKtTh-nHcdgpruvjf237E78dqMydLLd1A0Uu7Kr7CmNIurXFd9-Z4hwevLRd3SQMEbSRxAwCclgC4tTzEZ5KoFmpI4veKBFGOqF5MCx3hO9iNRdHrJC44hfRx-Bw7p__PYNWF8sc6yYd0deF-C5aJpronFUYp3vXiwt023qm6T9eRqVvtH1BRfLwCZOJmYrGbKzq4plzNKM7DnHKHNV_cjJQtc9aD3JQz8n2GI-cHx2PYubUyIjVWWvntKWC-EUtn4REgL4jmIaWzDUVz3nkEBW7I3Wf6u2TkuAVu9vq_0mW_dTVDCzgASk") 
    .addCookie(".linkedin.com","_ga", "GA1.2.2091383287.1503630105") 
    .addCookie(".www.linkedin.com","li_at", "AQEDAReIjksE2n3-AAABXiKOYVQAAAFeRprlVFYAV8gUt-kMEnL2ktiHZG-AOblSny98srz2r2i18IGs9PqmSRstFVL2ZLdYOcHfPyKnBYLQPJeq5SApwmbQiNtsxO938zQrrcjJZxpOFXa4wCMAuIsN") 
    .addCookie(".www.linkedin.com","JSESSIONID", "ajax:4085733349730512988") 
    .addCookie(".linkedin.com","liap", "true") 
    .addCookie(".www.linkedin.com","sl","v=1&f68pf") 
    .addCookie("www.linkedin.com","visit", "v=1&M") 
    .addCookie(".www.linkedin.com","bscookie", "v=1&201708250301246c8eaadc-a08f-4e13-8f24-569529ab1ce0AQEk9zZ-nB0gizfSrOSucwXV2Wfc3TBY") 
    .addCookie(".linkedin.com","bcookie", "v=2&d2115cf0-88a6-415a-8a0b-27e56fef9e39"); 

Habe ich etwas übersehen?

Antwort

0

LinkedIn ist sehr schwer zu kriechen, nicht nur technisch, aber sie auch sue people who do.

Wenn sie eine IP als möglichen Bot erkennen, geben sie Ihnen die Login-Seite. Die meisten IP-Adressen, die für Bots von ihnen bekannt sind, dienen jetzt als Anmeldeseite. Neue Bereiche halten nicht sehr lange.

Sie sind wahrscheinlich nur ziemlich zuversichtlich, dass Sie ein Bot sind und Sie davon abhalten, sich einzuloggen.