2017-08-13 3 views
2

Ich versuche, einen Bigramm und ein Trigramm mit Hilfe von Ordytext zu verwenden. Welchen Code könnte ich verwenden, damit der Token nach 2 und 3 Wörtern sucht?So verwenden Sie Bigramme und Trigramme mit sauberem Text

Dies ist der Code für Bigramme nur mit:

library(tidytext) 
library(janeaustenr) 

austen_bigrams <- austen_books() %>% 
    unnest_tokens(bigram, text, token = "ngrams", n = 2) 

austen_bigrams 

Antwort

3

Wenn man sich ?unnest_tokens aussehen, es sagt Ihnen ... für Parameter an die tokenizer geben wird. Für ngrams, das ist tokenizers::tokenize_ngrams, und wenn man sich seine Hilfeseite sehen, hat es einen n_min Parameter, so können Sie

library(magrittr) 
library(tidytext) 
library(janeaustenr) 

austen_bigrams <- austen_books() %>% 
    head(1000) %>% # otherwise this will get very large 
    unnest_tokens(bigram, text, token = "ngrams", n = 3, n_min = 2) 

austen_bigrams 
#> # A tibble: 19,801 x 2 
#>     book    bigram 
#>     <fctr>     <chr> 
#> 1 Sense & Sensibility    sense and 
#> 2 Sense & Sensibility sense and sensibility 
#> 3 Sense & Sensibility  and sensibility 
#> 4 Sense & Sensibility and sensibility by 
#> 5 Sense & Sensibility  sensibility by 
#> 6 Sense & Sensibility sensibility by jane 
#> 7 Sense & Sensibility    by jane 
#> 8 Sense & Sensibility  by jane austen 
#> 9 Sense & Sensibility   jane austen 
#> 10 Sense & Sensibility  jane austen 1811 
#> # ... with 19,791 more rows 
tun
Verwandte Themen