2016-04-29 11 views
-2

Ich arbeite in Text Mining mit spanischen twitts, mein Problem ist, dass ich die gleichen Worte habe, aber auf verschiedene Arten (mit Akzent und ohne Akzent), Beispiel: Accion, acción.Reinigung Akzent im Text Twitter

Ich habe versucht, Codierung zu verwenden: Unicode "UTF-8", aber nicht funktionieren. meiner Bibliothek Bibliothek (stringi) Bibliothek (TWITTER) Bibliothek (tm) Bibliothek (Wordcloud) Bibliothek (RColorBrewer)

+1

Bitte lesen Sie die Informationen zu ändern, [wie eine gute Frage] (http : //stackoverflow.com/help/how-to-ask) und wie man ein [reproduzierbares Beispiel] gibt (http://stackoverflow.com/questions/5963269). Dies wird es anderen sehr erleichtern, Ihnen zu helfen. – zx8754

+0

Was Sie tun könnten, ist eine "Datenbank" von Akzentbuchstaben und was sie übersetzen zu schaffen. Wenden Sie das dann auf einzelne Tweets an und "akzentuieren" Sie akzentuierte Zeichen. Sie können zum Beispiel 'sub' verwenden. –

Antwort

0

Sie nicht klar war angeben, was mit griffenen Tweets zu tun versuchen (in eine rettende Textdatei, oder als Datenframe etc.) Wenn Sie UTF-8 Kodierung verwenden, wird es im Prinzip den Buchstaben beibehalten, wie er ist.

con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8") 
write(df, file = con) 

Wenn Sie jedoch diese Akzent Zeichen versuchen, in die normale äquivalente wäre die einfachste Art und Weise verwendet werden iconv über

iconv("acción", to='ASCII//TRANSLIT') 
>[1] "accion"