Ich arbeite an einem Crawler und ich versuche, den Link "http://devonline.com/" herunterladen. Die ganze Zeit bekomme ich Code 301 mit Redirect auf dem gleichen Link.Wie Umleitung zu vermeiden
Wie vermeidet man diese Umleitung und einen Inhalt abrufen? Diese
ist, wie ich den Antrag stellen (Datei "/" in diesem Fall gleich):
String request
= "GET " + file
+ (file.endsWith("robots.txt") ? " HTTP/1.0\r\n" : " HTTP/1.1\r\n")
// " HTTP/1.1\r\n"
+ "User-Agent: " + CrawlerConfig.USER_AGENT + "\r\n"
// + ((!CrawlerConfig.SAVE_IMAGES) ? "Accept: text/html\r\n" : "")
// + "Accept: text/*\r\n"
+ (file.endsWith("robots.txt") ? "Connection: close\r\n" : "")
+ "Host: " + host + "\r\n" + "\r\n"/*
* + body
*/;
outStream.write(request.getBytes("US-ASCII"));
outStream.flush();
Welche Inhalte? Wenn es sich um eine Weiterleitung handelt, gibt es wahrscheinlich keinen nützlichen Inhalt für den Antworttext. –
devonline.com hat wahrscheinlich Regeln in der Server-Konfiguration erhalten, um eine Antwort auf Anfragen zu verweigern, die nicht so aussehen, als kämen sie von einem echten Browser. –
"Vermeiden" Sie die Weiterleitung nicht; Folge es! – Chris