2016-03-16 6 views
5

Ich möchte eine https-Website verschrotten, aber ich scheiterte.Paket "rvest" für Web Scraping https Website mit Proxy

Hier ist mein Code:

require(rvest) 
url <- "https://www.sunnyplayer.com/de/" 
content <- read_html(url) 

Aber ich habe Fehler in Konsolen- "Fehler in open.connection (x, "rb"): Timeout erreicht wurde" , wie ich dieses Problem beheben?

+0

Dieser Code läuft für mich ohne Fehler. Das Problem kann spezifisch für Ihren Proxy sein. –

+0

Welche Einstellung brauche ich in R für Proxy? bitte hilf mir. –

+0

Ich weiß nur, dass es für mich ohne Proxy funktionierte. Dein Titel erwähnt, dass du einen Proxy verwendest. Wenn das der einzige Unterschied zwischen deinem Setup und meinem ist, dann muss das das Problem sein. –

Antwort

7

Das gleiche passiert mir auf einem Proxy. Um dies zu umgehen, verwenden Sie download.file und geben Sie einen Speicherort für den Download an. Sie können die Datei dann mit read_html analysieren.

download.file(url, destfile = 'C://whatever.html') 
content <- read_html('C://whatever.html')