2016-09-14 6 views
1

So habe ich einen Dokumentenkorpus und ich muss alle Wörter finden, die alle Kapital (dh jedes Zeichen in diesem Wort ist Kapital) in allen Dokumenten in R. Ich bin mir nicht sicher, wie ich das finden soll. Ich habe mir das Text Mining 'tm' Paket in R angesehen und es gibt keine solchen Funktionen, die das finden können.Wie finden Sie alle Hauptwörter in einem Korpus in R

Eingang String: "Russia Is THE BiggEST cOUNTRY"

Ausgang erforderlich: "THE"

Wie dies mit "tm" Paket zu tun?

Antwort

1

Versuchen Sie, regulären Ausdruck zu verwenden.

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE" 
+0

dies wird nur eine wor finden d, versuche zum Beispiel mit 'string <-" Russia IS THE Biggest country "' – Cath

2

können Sie verwenden gregexpr und regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE" 

Daten

abc <- "Russia Is THE BiggEST cOUNTRY" 
2

Mit stringr (wenn Sie möchten, alle diese Worte finden (als Vektor) mit Kappen nicht nur die erste):

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD" 
Verwandte Themen