Ich benutze nltk, also möchte ich meine eigenen benutzerdefinierten Texte wie die Standard auf nltk.books erstellen. Allerdings habe ich mich sehr auf das Verfahren auf wieWie tunkiere ich einen String-Satz in NLTK?
my_text = ['This', 'is', 'my', 'text']
Ich möchte jede mögliche Weise zur Eingabe meiner „Text“, wie entdecken: die
my_text = "This is my text, this is a nice way to input text."
Welche Methode, Python oder von nltk erlaubt ich, das zu tun. Und noch wichtiger: Wie kann ich Interpunktionssymbole unterschätzen?
Können Sie klären, was meinst du mit 'unterschätzen punctation symbols'? – quetzalcoatl
ich denke, er meinte – alvas
den eingegebenen Satz tokenize Ja, zum Beispiel, wenn ich tue: sentente = „Dies ist mein Satz, ein Satz ist ein kurzer Ausdruck“ Also, ‚Satz‘ und ‚Satz‘ wäre zwei verschiedene Elemente ... – diegoaguilar