Ich habe ein data.frame mit zwei Variablen, von denen eine nur URLs enthält. Ich möchte diese URLs verwenden, um alle zu scrappen und relevante Textinformationen aus jedem von ihnen zu extrahieren und dadurch Variablen zum Datenrahmen hinzuzufügen, um die Textanalyse dort bereit zu haben.Webscraping von einer Variablen
FAO_CountryName FAO_CountryURL
Algeria http://www.fao.org/giews/countrybrief/country.jsp?code=DZA
Egypt http://www.fao.org/giews/countrybrief/country.jsp?code=EGY
Mit anderen Worten, würde Ich mag, einen Weg finden, diese URLs als richtige HTML-Seiten in einer Art und Weise zu betrachten, dass ich sie durch die read_html() Befehl kratzen konnte.
Die Idee wäre, so etwas wie dies der Prozess am Ende haben:
Wir definieren zunächst eine FunktionFAO_CountryName FAO_CountryURL FAOText
Algeria http://www.fao.org/giews/countrybrief/country.jsp?code=DZA Algeria is an interesting country
Egypt http://www.fao.org/giews/countrybrief/country.jsp?code=EGY Egypt is interesting as well but in a different way
Pls betrachten zu akzeptieren und upvoting die Antwort, wenn Sie denken, es anderen Menschen – GGamba
helfen kann: Ich bin auf dem Stapel, daher habe ich noch nicht genug bekam Ruf, offenbar. werde ich tun sobald ich> mehr bekomme. – Ileeo
Hallo, vielen Dank für die Hilfe. Ok für das Skript, durch das es möglich ist, die verschiedenen URLs zu berücksichtigen. Wie auch immer, ich bekomme nicht die Art und Weise, wie die Formel auf jede Zeile angewendet werden sollte und - auf jeden Fall - scheint sie nicht mit meinem FAO_data Datenrahmen zu funktionieren. Könnten Sie bitte klären? Danke noch einmal. – Ileeo