2016-07-20 6 views
1

Gibt es eine Möglichkeit, bereits verarbeiteten Datensatz für nur englischen Text mit Python zu filtern? Vielleicht ein paar NLTK-Features oder so ähnlich. Die Daten wurden von Twitter extrahiert, und es ist Format ist folgendes:Twitter-Dataset-Filter für nur englischen Text mit Python

<tweetid>, <username>, <userid> &8888 <tweet text> 

Stream-Filterung nicht geeignet ist, da ich die Anfangsdaten nur im Format oben zeigte. Jede Hilfe wird geschätzt, danke.

Antwort

1

Was Sie brauchen, ist das Spracherkennungsmodul.

from textblob import TextBlob  
textBlob('your tweet').detect_language() 
+0

Danke, das ist sehr hilfreich. – mjackie

Verwandte Themen