Ich versuche, die Sätze in Worte zu teilen.Aufteilen der Sätze in Python
words = content.lower().split()
das gibt mir die Liste der Wörter wie
'evening,', 'and', 'there', 'was', 'morning--the', 'first', 'day.'
und mit diesem Code:
def clean_up_list(word_list):
clean_word_list = []
for word in word_list:
symbols = "[email protected]#$%^&*()_+`{}|\"?><`-=\][';/.,']"
for i in range(0, len(symbols)):
word = word.replace(symbols[i], "")
if len(word) > 0:
clean_word_list.append(word)
ich so etwas wie:
'evening', 'and', 'there', 'was', 'morningthe', 'first', 'day'
, wenn Sie das sehen Wort "morningthe" in der Liste, es verwendet "-" zwischen Wörtern haben. Nun, gibt es einen Weg, wie ich sie in zwei Wörter wie "morning","the"
teilen kann?
Sie müssen auf allen Separatoren spalten, nicht nur weiß-Raum. Dies wird in anderen StackOverflow-Fragen behandelt. – Prune
möglich duplizieren von http://StackOverflow.com/q/13209288/3865495 – CoconutBandit
Sie müssen 'strip()' Methode verwenden, um unerwünschte Symbole an den Enden der Zeile zu löschen. I.e. ''x -'. strip (',: -')' -> ''x'', aber'' x-y'.strip (',: -') '->' 'x-y''. Wenn Sie jedoch mit echten Texten arbeiten wollen, brauchen Sie einen komplexeren Ansatz ... Vielleicht sollte NTLK ein guter Anfang sein? – myaut