2017-11-11 10 views
0

Ich möchte eine Liste von Satz in Token, aber behalten negierte Verben als eindeutige Wörter.Python: Apostroph mit Verben

t = """As aren't good. Bs are good""" 
print(word_tokenize(t)) 
['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good'] 

Ich möchte "sind nicht" und "sind" getrennt haben. Mit word_tokenize bekomme ich "nicht". Gleiches gilt für andere negierte Formen wie (Konnte nicht, nicht, usw.).

Wie kann ich es tun? Vielen Dank im Voraus

Antwort

0

Wenn Sie einzelne Wörter aus einem durch Leerzeichen getrennten Satz extrahieren möchten, verwenden Sie die Methode split() von Python.

t = "As aren't good. Bs are good" 
print (t.split()) 
['As', "aren't", 'good.', 'Bs', 'are', 'good'] 

Sie können auch andere Trennzeichen in der split() Methode angeben. wenn Sie Ihre Zeichenfolge tokenize basiert auf einer Vollstopp wollten, könnten Sie so etwas wie dies zum Beispiel tun:

print (t.split(".")) 
["As aren't good", ' Bs are good'] 

Lesen Sie die Dokumentation here.

+0

Vielen Dank für Ihre Antwort. – Elly