2017-09-29 1 views
0

mit R-Programmierung Ich habe es mit Text-Datei, die Wörter wie (C#, C++, Netz) von Stellenanzeigen hat, wenn ich es in Token konvertieren die #, ++ und der Punkt werden entfernt. Wie kann ich sie in den resultierenden Tokens behalten?wie man (, # Symbole) in Token in r Programmierung

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE) 

Antwort

1

Das Problem ist das Argument token = "words", die auf Nicht-Wortzeichen spaltet (vermutlich die regex \\W+). Diese Funktion verwirft die Trennzeichen. Um diese Zeichen zu behalten, müssen Sie ein anderes Argument als "words" verwenden. Vielleicht möchten Sie Ihre eigene Spaltung regex mit token = "regex" und so etwas definieren:

unnest_tokens(word, 
       REQUIREMENTS, 
       token = "regex", 
       to_lower = TRUE, 
       pattern = "\\s+") # split on whitespace rather than non-word elements 

Auf diese Weise you can define whatever regex you need anpassen, wie der Text in Token aufgeteilt wird.

+0

danke, sehr hilfreich –