Ich möchte den gesamten Text in der folgenden Website kratzen: http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172Web Schaben mit rvest
Mein Code:
html = http://curia.europa.eu/juris/document/document.jsf?text=&docid=49703&pageIndex=0&doclang=en&mode=lst&dir=&occ=first&part=1&cid=656172
main_content <- html_nodes(html, css = "#document_content")
main_text <- main_content %>% html_nodes("p") %>%html_text()
jedoch auf diese Weise nicht der gesamte Text extrahiert werden, weil einige Text ist im Knoten "dd" ... "/ dd"
Ich frage mich, ob ich etwas wie html_nodes ("p") oder html_nodes ("dd") oder html_nodes ("dt") tun kann, um html_nodes zu ersetzen ("p") in der obigen dode.
Wie kann ich das erreichen? Oder gibt es eine andere Möglichkeit, meine Aufgabe zu erfüllen? Idealerweise möchte ich nicht
main_text <- main_content %>% html_text()
verwenden, weil ich jeden Satz trennen möchte.