2017-11-20 1 views
0

ich folgenden Link haben, aus dem ich die Schlagzeilenwie alle Nachrichten Titel von Link zu holen und speichern sie in r

https://timesofindia.indiatimes.com/2017/11/1/archivelist/year-2017,month-11,starttime-43040.cms

ich tue folgendes r

library(rvest) 
url = "https://timesofindia.indiatimes.com/2017/11/1/archivelist/year-2017,month-11,starttime-43040.cms" 

results <- url %>% 
read_html() %>% 
html_nodes(xpath='/html/body/div[1]/table[1]') 
kratzen wollen

Aber es gibt keine Daten in results. Ich möchte diese Nachrichten in den R-Datenrahmen bringen. Wie kann ich es in R tun?

+0

durch Schlagzeilen meinen Sie den Text, der liest 'nicht die gleiche alte Kochi mehr' usw. .. –

+0

@hardik Ja. Ich meine das Gleiche. – Neil

+0

funktioniert es für Sie? –

Antwort

1

Sie können den css-Selektor a innerhalb span verwenden, um diese Schlagzeilen zu erhalten - wenn Sie einen einfacheren Code möchten und dann Ihre Operationen darauf ausführen.

Code:

library(rvest) 
url = "https://timesofindia.indiatimes.com/2017/11/1/archivelist/year-2017,month-11,starttime-43040.cms" 

results <- url %>% 
    read_html() %>% 
    html_nodes('span a') %>% html_text() 

results 

Ausgang:

> results 
     [1] "Not the same old Kochi anymore"                  
     [2] "Ramu Chellappa’s next to be based in Coimbatore"             
     [3] "Old is gold, cream n’ gold"    
1

Sie können tun, wie diese

library(rvest) 

url = "https://timesofindia.indiatimes.com/2017/11/1/archivelist/year-2017,month-11,starttime-43040.cms" 
page <- read_html(url) 

titles <- html_text(html_nodes(page,'.cnt div td:nth-child(1) span a')) 
titles[1:5] 

    > titles[1:5] 
[1] "Not the same old Kochi anymore"         "Ramu Chellappa’s next to be based in Coimbatore"    
[3] "Old is gold, cream n’ gold"          "Meme and troll pages play catalysts in promoting Kannada pride" 
[5] "Thallu, Kidu, Oola... Creativity had no bounds in Slangyalam" 
+0

Wie haben Sie '.cnt div td gefunden: nth-child (1) span a'? – Neil

Verwandte Themen