2017-11-13 1 views
0

Ich kratze Zeitungsartikel und kämpfe um herauszufinden, wie mehr als einen Knoten auszuschließen. Die R-Hilfe sagt, dass :not() eine Sequenz von einfachen Selektoren akzeptiert. Ich habe folgendes versuchtExcenting mehrere Knoten RVest

zeit_url <- read.html("http://www.zeit.de/wissen/gesundheit/2017-09/aids-hiv-neuinfektionen-europa-virus-gesundheit) 

article <- zeit_url %>% 
    html_nodes('.article-page>:not(.ad-container, .cardstack)') %>% 
    html_text() 

Es funktioniert nicht, die zwei Knoten durch ein Komma zu trennen. Irgendwelche Vorschläge, wie man die Reihenfolge der Selektoren in :not() korrekt spezifiziert?

Ich habe viel Zeit damit verbracht, nach einer Antwort zu suchen, aber ich bin neu in R (und HTML), also schätze ich Ihre Geduld, wenn dies etwas Offensichtliches ist.

+0

Gerade jetzt Ihr Code Schließung Anführungszeichen und Klammern fehlt, und es gibt keine Klasse auf dieser Seite 'Artikel-age' genannt, es ist so unklar, was Sie zu bekommen versuchen. – alistaire

+0

Entschuldigung dafür, ich habe es in meinem Code korrigiert! –

Antwort

0
library(rvest) 
zeit_url <- read_html("http://www.zeit.de/wissen/gesundheit/2017- 
      09/aids-hiv-neuinfektionen-europa-virus-gesundheit") 

article <- zeit_url %>% 
      html_nodes(".article-page>:not(.ad-container):not(.cardstack)") %>% 
      html_text() 
+0

Froh, zu helfen. Du warst nah. Akzeptieren Sie die Antwort, wenn dies für Sie funktioniert. – Jai