Ich hatte einige Hilfe von Benutzern von Stackoverflow bereits, versuchen, dieses Problem zu lösen. Allerdings lief ich in neue Schwierigkeiten:Webscraping HTML-Tabelle mit R
URL <- "http://karakterstatistik.stads.ku.dk/Histogram/ASOB05038E/Summer-2015"
pg <- read_html(URL)
get_val <- function(x, label) {
xpath <- sprintf(".//table/tr/td[contains(., '%s')][1]/following-sibling::td", label)
html_nodes(x, xpath=xpath) %>%
html_text() %>%
trimws()
}
library("stringr")
trimmed = get_val(pg, "Karakter") %>%
str_replace_all(pattern = "\\n|\\t|\\r" ,
replacement = "")
trimmed
Ich möchte für die Prüfungsergebnisse erhalten sowohl die Wiederholung und die Prüfung, aber da beide die Schlagzeilen für die beiden Tabellen gleich sind, R nimmt nur die Werte aus die Wiederholung. Um genau zu sein, würde ich gerne die Spalte "Antal" direkt neben den Noten, 12, 10, 7, 4, 02, 00, -3 in den beiden Tabellen unter der Überschrift Ergebnis
Hilfe bekommen würde viel geschätzt werden! :)