Twitter-Dataset-Filter für nur englischen Text mit Python

Gibt es eine Möglichkeit, bereits verarbeiteten Datensatz für nur englischen Text mit Python zu filtern? Vielleicht ein paar NLTK-Features oder so ähnlich. Die Daten wurden von Twitter extrahiert, und es ist Format ist folgendes:Twitter-Dataset-Filter für nur englischen Text mit Python

<tweetid>, <username>, <userid> &8888 <tweet text>

Stream-Filterung nicht geeignet ist, da ich die Anfangsdaten nur im Format oben zeigte. Jede Hilfe wird geschätzt, danke.

Quelle

2016-07-20 mjackie

Was Sie brauchen, ist das Spracherkennungsmodul.

from textblob import TextBlob  
textBlob('your tweet').detect_language()

Quelle

2016-07-20 18:59:28 Aaron

Danke, das ist sehr hilfreich. – mjackie

Twitter-Dataset-Filter für nur englischen Text mit Python

Antwort

Verwandte Themen