Ich versuche, einen Datenrahmen zu erstellen, der die Spalten enthält: Vorname, Nachname, Party, Bundesland, Mitglieds-ID. Hier ist mein CodeErstellen eines Datenrahmens aus einem geschabten Zeichenvektor
library('rvest')
candidate_url <- 'https://www.congress.gov/help/field-values/member-bioguide-ids'
candidate_page <- read_html(candidate_url)
candidate_nodes <- html_nodes(candidate_page, 'table')
candidate_list <- html_text(candidate_nodes)
Mein Hauptproblem ist die Mitglieder IDs zu bekommen. Eine Beispiel-ID ist A000009. Wenn ich die gsub
Funktion verwende, verliere ich die führende A in diesem Beispiel. Das A stammt vom Nachnamen dieses Kandidaten (Abercrombie), aber ich weiß nicht, wie ich das A wieder in die Mitglieds-ID einfügen kann. Natürlich, wenn es einen besseren Weg gibt, bin ich offen für irgendwelche Vorschläge.
Ich versuchte dies, aber es entfernt die Hälfte der Mitglieder. Es sollte 4000+ sein, aber wenn wir html_table verwenden, wird es halbiert. Ich konnte nicht herausfinden, warum das passiert ist, also versuche ich andere Methoden. – Jordan
Es sollte nicht 4000+ sein; Diese Zahl wird durch die leeren Zeilen aufgebläht. – alistaire
Aber wenn Sie wirklich historische Bioguides wollen, brauchen Sie nur 'members <- read.csv ('https://theunitedstates.io/congress-legislators/legislators-historical.csv', stringsAsFactors = FALSE)' – alistaire