2017-07-04 4 views
0

Ich möchte die Werte von einer Webseite extrahieren, aber für bestimmte xml-Strukturen scheint ich aggregierte Werte herauszubekommen.rVest: Wie man Werte extrahiert (Kinder ignorierend)

data 
{xml_nodeset (1)} 
[1] <span class="match">tusinde<span class="super">1</span></span> 

Wenn ich den Text extrahieren erhalte ich:

data %>% html_text() 
tusinde1 

Was ich will, ist:

tusinde 

Antwort

1

Ohne mehr Hintergrundinformationen über die allgemeine Frage und reproduzierbares Beispiel ist es schwierig, mit einer Lösung kommen, die über das von Ihnen gegebene Beispiel hinausgeht.

Der folgende Code zum Beispiel löst Ihr Problem, aber ich weiß nicht, wie gut in diesem speziellen Fall verallgemeinert.

data <- "<span class=\"match\">tusinde<span class=\"super\">1</span></span>" 

out <- data %>% read_xml() %>% xml_contents() 

as.character(out[1]) 

Gibt Ihnen:

[1] "tusinde" 
Verwandte Themen