2016-06-01 17 views
0

Ich möchte den gesamten Text in der folgenden Website kratzen: http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172Web Schaben mit rvest

Mein Code:

html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172 

    main_content <- html_nodes(html, css = "#document_content") 
    main_text <- main_content %>% html_nodes("p") %>%html_text() 

jedoch auf diese Weise nicht der gesamte Text extrahiert werden, weil einige Text ist im Knoten "dd" ... "/ dd"

Ich frage mich, ob ich etwas wie html_nodes ("p") oder html_nodes ("dd") oder html_nodes ("dt") tun kann, um html_nodes zu ersetzen ("p") in der obigen dode.

Wie kann ich das erreichen? Oder gibt es eine andere Möglichkeit, meine Aufgabe zu erfüllen? Idealerweise möchte ich nicht

main_text <- main_content %>% html_text() 

verwenden, weil ich jeden Satz trennen möchte.

Antwort

0

Wenn CSS-Auswahl, wenn Sie die Knoten, die Sie durch ein Komma getrennt wollen, dass wie eine logische OR ...

library("rvest") 
url = "http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172" 
page <- read_html(url) 
main_text <- page %>% 
    html_nodes("#document_content") %>% 
    html_nodes("p,dd,dt") %>% 
    html_text()