Ich möchte die HTML-Codes von der unten aufgeführten URL scrappen. Das Problem ist, bekomme ich diesen Fehler: -org.jsoup.HttpStatusException: HTTP-Fehler beim Abrufen der URL. Status = 504 Fehler beim Versuch, HTML-Inhalt zu scratzen
Aug 14, 2016 6:40:36 PM booksscraper.BooksScraper main SEVERE: null org.jsoup.HttpStatusException: HTTP error fetching URL. Status=504, URL= http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10293&langId=-1&programId=636&termId=100043741&divisionDisplayName=%20&departmentDisplayName=ACCG&courseDisplayName=16971§ionDisplayName=P15%20DAVIS&demoKey=d&purpose=browse at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:590) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:227) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:216) at booksscraper.BooksScraper.main(BooksScraper.java:52)
Ich habe die Zeitüberschreitung auf unendlich eingestellt, aber das hat nicht geholfen. Der HTML-Code für diese Website ist extrem groß, d. H. 14833 Zeilen Code. Ist das der Grund für das Problem?
Vielen Dank für die Antwort awarequest. Das Gateway-Timeout wird jedoch nur angezeigt, wenn wir die URL direkt eingeben. Wenn wir über diese URL zu dieser URL gehen: "[URL] (http://www.bkstr.com/sheridandavistore/shop/textbooks-and-course-materials?cm_sp=GlobalJuly122016BTS-_ShipTextbooks-_943)", Nein Gateway-Timeout tritt auf. Wie passiert das? – Rokin