2010-11-23 7 views
0

Ich benutze derzeit CyberNeko, um Informationen von einer Website zu bekommen. Ich glaube jedoch, dass die Website die User Agent/Browser-Version überprüft, um nicht nur den URL-Inhalt zu erfassen.Groovy: CyberNeko | Benutzeragenten | Browser Version

Ich bin bewusst, mit HTML-Unit, um die Browser-Version zu ändern, aber nicht sicher, ob ich mit CyberNeko darüber gehen kann.

Weiß jemand, ob es möglich ist, so etwas zu tun?

+0

für einen Moment darüber nachdenkt. Wenn der Inhaber der Website ist nicht die Menschen die kratzen will Vielleicht solltest du nicht versuchen, unmoralisch zu sein und das zu umgehen? Ich bin mir sicher, dass wenn Sie sich mit dem Websitebesitzer in Verbindung setzen, er mehr als bereit ist, Ihnen die Daten in einem anderen Format zur Verfügung zu stellen, das die Seite nicht so belastet wie Scraper es normalerweise tun oder vielleicht sogar eine API zur Verfügung stellt für Dritte zu verwenden. – Esko

+0

Die Menge an Inhalten, die ich suchen möchte, ist winzig. Ich bevorzuge es, keine Stunde mit einer Aufgabe zu verbringen, die viel schneller automatisiert werden kann. – StartingGroovy

Antwort

1

Ich habe nie CyberNeko verwendet, aber ich dachte, es war nur ein HTML-Parser, d.h. ich dachte nicht, Sie könnten es verwenden, um die HTTP-Anfragen und Download die Webseite.

Es könnte die Tatsache sein, dass die HTTP-Anfrage von CyberNeko verschiedene Header wie den User-Agent-Header fehlt. Eine einfache Möglichkeit, sicherzustellen, dass die HTTP-Anforderung wie eine Anforderung aussieht, die von einem Browser gesendet wird, besteht darin, HttpClient anstelle von CyberNeko zum Herunterladen der Webseite zu verwenden. Es gibt einen Beispielcode, der verfügbar ist here.

Nachdem Sie erfolgreich die Seite heruntergeladen haben, verwenden CyberNeko die Bits zu analysieren, die Sie interessiert

+0

Ja, CyberNeko sieht aus wie nur ein Parser. Ich habe HttpClient getestet, um die http-Anfrage zu machen, die gut zu funktionieren schien. Ich wollte mit CyberNeko parsen. Sieht so aus, als müsste ich es in zwei Teile zerlegen. Danke, Don. – StartingGroovy

Verwandte Themen