Ich versuche Vorverarbeitung in Corpus in R zu tun, und ich muss die Wörter entfernen, die mit $ beginnen. Unter Code entfernt die $, aber nicht die $ Wörter, ich bin verwirrt.
inspect(data.corpus1[1:2])
# <<SimpleCorpus>>
# Metadata: corpus specific: 1, document level (indexed): 0
# Content: documents: 2
#
# [1] $rprx loading mid .60's, think potential. 12m vol fri already 11m today
# [2] members report success see track record $itek $rprx $nete $cnet $zn $cwbr $inpx
removePunctWords <- function(x) {
gsub(pattern = "\\$", "", x)
}
data.corpus1 <-
tm_map(data.corpus1,
content_transformer(removePunctWords))
inspect(data.corpus1[1:2])
# <<SimpleCorpus>>
# Metadata: corpus specific: 1, document level (indexed): 0
# Content: documents: 2
#
# [1] rprx loading mid .60's, think potential. 12m vol fri already 11m today
# [2] members report success see track record itek rprx nete cnet zn cwbr inpx
Ich bin nicht der beste mit Regex, aber vielleicht ein "."? Zum Beispiel: 'gsub (pattern =" \\ $. * "," ", X)'? – shea
@shea Das würde alles nach dem ersten $ töten. Sie möchten nur $ und die folgenden Wortzeichen eliminieren. – G5W
@ G5W danke für die Erklärung. Ich wusste nicht, dass das ". *" _that_ gierig sein würde. – shea