Pythons Spacy-Paket enthält einen statistischen Tokenizer, der einen Satz intelligent in Token aufteilt. Meine Frage ist, gibt es ein Paket, das mir erlaubt, rückwärts zu gehen, d. H. Von der Liste der Token zu einem schön formatierten Satz? Im Grunde möchte ich eine Funktion, die mir den folgenden Schritte aus läßt:NLP Reverse Tokenizing (von Token zu schön formatierten Satz)
>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"
Es wahrscheinlich irgendeine Art von statistischem/regelbasierten Verfahren muss wissen, wie Abstand, Kapitalisierung oder Kontraktionen sollte in einem richtigen Satz arbeiten.
I Habe Zugang zum spacy-Token-Objekt. Ich erstelle ein Diktat, das die Liste der Token mit dem formatierten Satz übereinstimmt. Vielen Dank! –