2012-04-04 7 views
0

Ich greife auf Webseiten zu, indem ich einige Variablen in die URL einfügeWie soll ich 404 Fehler beim Scraping vermeiden? R

Es kommt gelegentlich zu 404 Fehlern.

Wie füge ich eine Art Catch für diese Seiten ein, um den Code nicht zu beschädigen. Ich verwende derzeit das XML-Paket, aber natürlich könnten andere laden, wenn entsprechende

TIA

+0

[versuchen Sie dies] (http://stackoverflow.com/questions/9404278/using-readhtmltable-from-xml-package-to-scrape-site-uncertain-error-message) – Justin

+0

@Justin. Tx Ich habe das als Grundlage benutzt. Würdest du es zur Antwort machen wollen? – pssguy

Antwort

0

Die meisten Male, die ich RCurl::url.exists() verwenden. Wenn Sie eine Liste oder einen Datenrahmen mit allen URLs haben, können Sie folgendes versuchen:

map(p, ~ifelse(RCurl::url.exists(.), ., NA)) 

HTH!