2017-08-22 3 views
1

Ich würde gerne ein twitter-blogdown Blog von Bildern, die einige Beiträge, aber ich bin mir nicht sicher, ob es überhaupt möglich ist. Ich habe "twitteR" verwendet, um alle Beiträge von einer Person zu scrappen, aber es sieht so aus, als müsste ich etwas völlig anderes machen, um Bilder anstelle von Text zu bekommen.Kratzen Bilder von Tweets mit R

Irgendwelche Ratschläge, welche Richtung zu nehmen wäre geschätzt.

+2

Eine Strategie: 1. Verwenden Sie reguläre Ausdrücke, um einen Status nach Links zu durchsuchen (zB "" (? I-) https?: // t \\ .co/[A-z0-9] + "'], 2 .decodiere die URLs (zB mit 'httr :: HEAD (...) $ url'), # 3 überprüfe, ob es sich um einen Foto-Link handelt, # 4 öffne die Foto-Link-URL, # 5 benutze xpaths um die Bild-URL zu erhalten, # 6 benutze 'download.file', um das Bild endlich herunterzuladen. – lukeA

Antwort

3

Eine ziemlich breite Frage, aber hier sind einige Ideen.

Erstens: Ich empfehle die Verwendung des rtweet Pakets. Meiner Erfahrung nach erleichtert es die Authentifizierung und gibt Daten in einfach zu verwendenden Strukturen zurück.

Als Beispiel ist hier, wie ich die Authentifizierung nach dem Einrichten meiner eigenen letzten 100 Tweets holen würde, wie in der Paketdokumentation beschrieben:

library(rtweet) 
library(dplyr) 

neilfws <- get_timeline("neilfws", n = 100) 
neilfws %>% 
    glimpse() 

Die Spalte media_id zeigt an, ob ein Tweet Medien angebracht hat, Wert = NA wenn nicht. So eine schnelle Zählung, wie viele Zeilen haben Medien:

neilfws %>% 
    filter(!is.na(media_id) %>% 
    nrow() 

Der Link zu den Medien ist in der Spalte media_url. Also hier die ersten 6 Bilder mit meiner Tweets sind:

neilfws %>% 
    filter(!is.na(media_id)) %>% 
    select(media_url) %>% 
    head() 

1 http://pbs.twimg.com/media/DHzGbvyVoAAm8in.jpg 
2 http://pbs.twimg.com/media/DHfc4idV0AA6qyc.jpg 
3 http://pbs.twimg.com/media/DHfNamEVYAA5H_U.jpg 
4 http://pbs.twimg.com/media/DHYuG1oUwAADV-z.jpg 
5 http://pbs.twimg.com/media/DHQlEQqUAAAHoCK.jpg 
6 http://pbs.twimg.com/media/DHLG_ESUMAAMURj.jpg 

Jetzt haben Sie die Medien URLs haben, können Sie auf dem Code arbeiten, um sie abrufen oder anzeigen.

+0

Das war ein guter Anfang, ich mochte' rtweet' besser. Dank @ Yihuis Bearbeitung habe ich auch einige großartige [Schritte] gefunden (https://github.com /yihui/twitter-blogdown/blob/master/content/about.md) um mit der Struktur zu beginnen. – Nazer