So habe ich einen Dokumentenkorpus und ich muss alle Wörter finden, die alle Kapital (dh jedes Zeichen in diesem Wort ist Kapital) in allen Dokumenten in R. Ich bin mir nicht sicher, wie ich das finden soll. Ich habe mir das Text Mining 'tm' Paket in R angesehen und es gibt keine solchen Funktionen, die das finden können.Wie finden Sie alle Hauptwörter in einem Korpus in R

Eingang String: "Russia Is THE BiggEST cOUNTRY"

Ausgang erforderlich: "THE"

Wie dies mit "tm" Paket zu tun?

Quelle

2016-09-14 J. Tang

Versuchen Sie, regulären Ausdruck zu verwenden.

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE"

Quelle

2016-09-14 12:08:43

dies wird nur eine wor finden d, versuche zum Beispiel mit 'string <-" Russia IS THE Biggest country "' – Cath

können Sie verwenden gregexpr und regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE"

Daten

abc <- "Russia Is THE BiggEST cOUNTRY"

Quelle

2016-09-14 12:19:55

Mit stringr (wenn Sie möchten, alle diese Worte finden (als Vektor) mit Kappen nicht nur die erste):

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD"

Quelle

2016-09-14 12:27:37

Wie finden Sie alle Hauptwörter in einem Korpus in R

Antwort

Daten

Verwandte Themen