0

Ich möchte die HTML-Codes von der unten aufgeführten URL scrappen. Das Problem ist, bekomme ich diesen Fehler: -org.jsoup.HttpStatusException: HTTP-Fehler beim Abrufen der URL. Status = 504 Fehler beim Versuch, HTML-Inhalt zu scratzen

Aug 14, 2016 6:40:36 PM booksscraper.BooksScraper main SEVERE: null org.jsoup.HttpStatusException: HTTP error fetching URL. Status=504, URL= http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971&sectionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:590) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:227) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:216) at booksscraper.BooksScraper.main(BooksScraper.java:52)

Ich habe die Zeitüberschreitung auf unendlich eingestellt, aber das hat nicht geholfen. Der HTML-Code für diese Website ist extrem groß, d. H. 14833 Zeilen Code. Ist das der Grund für das Problem?

Antwort

0

ich durch Setzen des Useragent als auf der Website habe es geschafft, verbinden Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/51.0.2704.106 Safari/537.36. Aber es dauerte ungefähr 4 Minuten, um zu antworten.

0

Dies ist keine Jsoup API oder Ihr Code-Problem. Der Grund für die Fehlermeldung ist, dass die URL nicht antwortet und "Gateway Timeout" -Fehlermeldung (Der Proxy-Server hat keine zeitnahe Antwort vom Upstream-Server erhalten).

Ausnahmemeldung aus dem Programm: -

HTTP error fetching URL. Status=504

HTTP-Statuscode: 504

504 Gateway Timeout

The server, while acting as a gateway or proxy, did not receive a timely response from the upstream server specified by the URI (e.g. HTTP, FTP, LDAP) or some other auxiliary server (e.g. DNS) it needed to access in attempting to complete the request.

Note: Note to implementors: some deployed proxies are known to 
    return 400 or 500 when DNS lookups time out. 
+0

Vielen Dank für die Antwort awarequest. Das Gateway-Timeout wird jedoch nur angezeigt, wenn wir die URL direkt eingeben. Wenn wir über diese URL zu dieser URL gehen: "[URL] (http://www.bkstr.com/sheridandavistore/shop/textbooks-and-course-materials?cm_sp=GlobalJuly122016BTS-_ShipTextbooks-_943)", Nein Gateway-Timeout tritt auf. Wie passiert das? – Rokin

Verwandte Themen