Ich versuche, unnest_tokens mit spanischem Text zu verwenden. Es funktioniert gut mit Unigrammen, aber bricht die Sonderzeichen mit Bigrammen.Funktioniert tidytext :: unnest_tokens mit spanischen Zeichen?
Der Code funktioniert unter Linux in Ordnung. Ich habe einige Informationen zum Gebietsschema hinzugefügt.
library(tidytext)
library(dplyr)
df <- data_frame(
text = "César Moreira Nuñez"
)
# works ok:
df %>%
unnest_tokens(word, text)
# # A tibble: 3 x 1
# word
# <chr>
# 1 césar
# 2 moreira
# 3 nuñez
# breaks é and ñ
df %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)
# # A tibble: 2 x 1
# bigram
# <chr>
# 1 cã©sar moreira
# 2 moreira nuã±ez
> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United
States.1252;LC_MONETARY=English_United
States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"
Können Sie die Ausgabe von 'Sys.getlocale()' als auch schreiben? Wird beim Debuggen helfen. – BrodieG
Ich kann das nicht reproduzieren, obwohl ich stark befürchte, dass es sich um ein [Unicode normalization] (https://en.wikipedia.org/wiki/Unicode_equivalence) Problem handelt. Stringi hat Konvertierungsfunktionen; siehe '? stringi :: stri_trans_nfc'. – alistaire