R konvertieren String tokenize mit „Vektor“

Ich habe eine Zeichenfolge:R konvertieren String tokenize mit „Vektor“

string1 <- "This is my string"

Ich möchte es auf einen Vektor konvertieren, die wie folgt aussieht:

vector1 
"This" 
"is" 
"my" 
"string"

Wie kann ich das tun ? Ich weiß, dass ich das tm Paket verwenden könnte, um zu termDocumentMatrix umzuwandeln und dann zu einer Matrix zu konvertieren, aber es würde die Wörter alphabetisch ordnen und ich brauche sie, um in der gleichen Reihenfolge zu bleiben.

Quelle

2012-08-13 screechOwl

Deron bietet eine gute Lösung, aber wenn Ihr Text komplizierter ist als das (zB Interpunktion usw.), benötigen Sie ein wenig mehr Ansatz. –

möglich duplizieren: http://stackoverflow.com/questions/520810/does-r-have-quote-like-operators-like-perls-qw – GSee

GSee das ist etwas anderes gefragt. screechOwl möchte einen einzelnen Zeichenvektor in Wörter aufteilen, wobei der von Ihnen angegebene Link anzeigt, dass das Poster nicht in Anführungszeichen gesetzte Wörter eingeben soll, die in Zeichen umgewandelt werden. –

Sie können strsplit verwenden, um diese Aufgabe zu erfüllen.

string1 <- "This is my string" 
strsplit(string1, " ")[[1]] 
#[1] "This" "is"  "my"  "string"

Quelle

2012-08-13 01:06:16 Dason

leicht von Dason, aber für jede Menge Leerraum inklusive Zeilenumbrüche aufgeteilt wird:

string1 <- "This is my 
string" 
strsplit(string1, "\\s+")[[1]]

Quelle

2012-08-13 09:05:16

Versuchen:

library(tm) 
library("RWeka") 
library(RWekajars) 
NGramTokenizer(source1, Weka_control(min = 1, max = 1))

Es ist eine über technische Lösung für Ihr Problem . strsplit mit Sacha Ansatz ist in der Regel gut.

Quelle

2013-08-11 20:24:48 russellpierce

Als Ergänzung können wir auch unlist() verwenden, um einen Vektor aus einer vorgegebenen Liste Struktur zu erzeugen:

string1 <- "This is my string" # get a list structure 
unlist(strsplit(string1, "\\s+")) # unlist the list 
#[1] "This" "is"  "my"  "string"

Quelle

2015-01-01 06:48:10

Wenn Sie einfach Wörter durch Spaltung auf die Räume zu extrahieren, sind hier ein paar schöne Alternativen .

string1 <- "This is my string" 

scan(text = string1, what = "") 
# [1] "This" "is"  "my"  "string" 

library(stringi) 
stri_split_fixed(string1, " ")[[1]] 
# [1] "This" "is"  "my"  "string" 
stri_extract_all_words(string1, simplify = TRUE) 
#  [,1] [,2] [,3] [,4]  
# [1,] "This" "is" "my" "string" 
stri_split_boundaries(string1, simplify = TRUE) 
#  [,1] [,2] [,3] [,4]  
# [1,] "This " "is " "my " "string"

Quelle

2015-01-01 07:33:21

R konvertieren String tokenize mit „Vektor“

Antwort

Verwandte Themen