2016-04-12 13 views
-1

Ich benutze R, um den Text zu lesen. Eine Passage besteht aus 100 Sätzen, dann wird es in einer Liste setzen, ist die Liste wie:Zählfrequenz von N-Gramm in Text mit r

[[1]] 

[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 

[[2]] 

[1] "chrisreedfilm: RT @hammertonail: #SXSW2016 doc THE SEER: A PORTRAIT OF WENDELL BERRY gets reviewed by @chrisreedfilm 

[[3]] 

[1] "iamscottrandell: RT @therevue: Take a jaunt down #MemoriesofSXSW & read the stories of @JRNelsonMusic @thegillsmusic & @TheBlancosMusic 
... 
... 

[[99]] 

[1] "SunPowerTalent: SunPower #Clerical #Job: Supply Chain Intern (#Austin, TX) 

[[100]] 

[1] "SunPowerTalent: #Finance #Job alert: General Ledger Accountant | SunPower 

Jedes Objekt in der Liste ist ein „Satz“ von einem gleichen Text. Wie kann ich die Häufigkeit aller 3-Gramm in diesem Text zählen und wissen, welcher Satz ist jeweils 3 Gramm?

Vielen Dank.

Antwort

0

Dazu können Sie das R-Paket textcat (https://CRAN.R-project.org/package=textcat) verwenden. Wenn Ihre Liste von 100 Sätzen genannt wird x Sie einfach tun:

library("textcat") 
n3gram <- textcat_profile_db(x, n = 3) 

Dies ist dann eine Liste mit 100 Elementen (entsprechend die ursprünglichen Sätze) mit dem 3-Gramm nach Frequenz geordnet. Weitere Details und Beispiele finden Sie unter ?textcat_profile_db.