2017-08-01 2 views
0

Ich verwende this Methode genau, aber wenn ich versuche, nur Englisch mit lang = "en" angeben und jede andere Variation von dem ich denken könnte, funktioniert es nicht. Dies ist, was ich (sogar mit Schlüsselwörtern, um es weiter zu beschränken) und es gibt mir immer noch nicht nur Englisch. Ich habe es mit und ohne Keywords versucht. Ich versuche, ein 200.000+ durchsuchbares Kontrollkorpus in Englisch für ein Forschungsprojekt zu erstellen und ich möchte nicht so viele Tweets von Hand durchgehen. Ideen?Twython importiert nicht nur englische Tweets?

>>> from nltk.twitter import Twitter 
>>> tw = Twitter() 
>>> tw.tweets(keywords='Delicacy, reptile, death, hold, dark, column, gifted, surgeon, brave, fashion, pearl, diamond, bent, sparkle, present, missing, shadow, holiday, glide, scanner, luster, immunity, devour, discipline, barbaric, fortunate, heart, puzzle, ache, crystal', 
     limit=10000, lang="en", to_screen=False) 
Writing to /Users/rhiannalavalla/twitter-files/tweets.20170521-235221.json 
Written 10000 Tweets 

Antwort

0

Die lang Option ist an die Twitter weitergegeben search API, so dass Sie Ihr Interesse an "English" Tweets. Aber hast du Twitter benutzt? Sie müssen nicht die Sprache jedes einzelnen Tweets deklarieren, so twitter kann nicht beschränken Sie Ihre Ergebnisse mit Genauigkeit. Die Option lang entspricht offensichtlich der Sprachwahl der Autoren für ihre Benutzeroberfläche, nicht der Sprache der einzelnen Tweets.

Um Ihre Ergebnisse auf Tweets in Englisch zu beschränken, suchen Sie nach Hashtags und/oder Benutzer-IDs, die wahrscheinlich nur für englische Sprecher von Interesse sind (die Einzelheiten hängen davon ab, wofür Ihr Korpus steht). Alternativ (oder vielleicht zusätzlich) können Sie einen automatisierten Algorithmus zur Spracherkennung ausprobieren, um verdächtige Tweets herauszufiltern. Das nltk wird mit dem langid Korpus von Sprach-Trigramm-Statistiken geliefert, mit denen Sie einen Erkenner trainieren können.

Verwandte Themen