2012-03-27 3 views
3

Ich möchte so viele Tweets extrahieren, die ein bestimmtes Schlüsselwort enthalten (normalerweise einen Firmennamen).Welche Twitter-API sollte ich verwenden, um große Mengen an Tweets für die NLP-Forschung zu extrahieren?

Ich habe die Twitter Search API verwendet, aber es ist auf "aktuelle Tweets" beschränkt. Für ein relativ seltenes Keyword kann ich also nicht mehr als 500 Tweets bekommen.

Twitter sagen, dass Sie nicht die Such-API für die Forschung verwenden sollten. Also, welche API sollte ich verwenden?

Antwort

2

Twitter bietet keinen freien Zugriff auf historische Daten. Datasift und Gnip verkaufen beide Zugriff auf die firefhose von Twitter.

4

Um viele Tweets mit bestimmten Schlüsselwörtern zu erhalten, verwenden Sie Streaming API mit Statuses/Filter.

Zuerst erstellen Sie eine Datei (z. B. "tracking.txt") mit Begriffen zu track mit Schlüsselwörtern, die durch Komma getrennt sind. Dies kann Hash-Tags enthalten. Zum Beispiel habe ich Folgendes verwendet, um Tweets mit einem Link und bestimmten Hashtags zu erhalten.

Verwenden Sie dann curl, um den Stream in eine Datei umzuleiten. Stellen Sie sicher, dass Sie Ihre Twitter-ID und Ihr Passwort verwenden.

curl -d @tracking.txt https://stream.twitter.com/1/statuses/filter.json -uAnyTwitterUser:Password > stream.json 
+0

Vielen Dank für Ihre Antwort, aber ich fürchte, diese API wird mich nur "neue" Tweets drücken, nicht nach Tweets, habe ich Recht? Da mein Keyword selten ist, muss ich auch an Tweets vorbeikommen. – Blacksad

+0

@Blacksad du hast recht. Es kann jedoch immer noch einen Versuch wert sein, da Sie bei einem ausreichend großen Firehose genügend Daten finden können. –

+0

Ich habe es versucht, und ich bekomme 1 oder 2 Tweets pro Stunde für das angegebene Keyword, das ich brauche. Ich bin nicht geduldig genug :) – Blacksad

Verwandte Themen