Ich verwende rvest, um Daten aus den HTML-Tabellen einer internen Website zu extrahieren. Die Farbe der Zeilen ist aussagekräftig. Daher möchte ich das Attribut BGCOLOR
als Spalte in meiner Final Table extrahieren, aber natürlich extrahiert html_table()
nur den Inhalt.So fügen Sie Attribute in eine Web-Scraped-HTML-Tabelle ein
Hier ist, was ich bisher habe. Ein Ausschnitt der HTML-Tabelle ist unten. Wie kann ich eine Spalte für Farbe einfügen?
html_nodes(samplepage,"table")
tbl_content <- samplepage %>%
html_nodes("table") %>%
html_table(fill = TRUE, trim = TRUE)
tbl_content
<tr BGCOLOR = "#F8C0E0">
<td> BASOPHILS <td> microl <td> 0.477 <td> 0.425 <td align="center"> 0.052 <td align="center"> 1.920 <td align="center"> 51.5 <td align="center"> 32
</tr>
<tr BGCOLOR = "#F8F0B0">
<td> CALCIUM <td > mg/dl <td> 12.2 <td> 1.7 <td align="center"> 7.6 <td align="center"> 14.9 <td align="center"> 71 <td align="center"> 33
</tr>
Terrific! Ich benutzte die zweite, einfachere Methode und es funktionierte wie ein Zauber. Ich musste header = FALSE in der Funktion html_table() setzen, um sie richtig auszurichten. Vielen Dank! – cricketbird