Ich versuche zu zählen, wie oft ein Wort in einer TXT-Datei erscheint. Das Programm scheint zu funktionieren, aber ich kann nicht aufhören zu zählen, was ich denke, ist weißer Raum (die 60 in meinem Ergebnis, was keinen Sinn macht, da es mehr als 60 Leerzeichen). Gibt es eine Art zu strippen - und - aus der Mitte der Wörter?Ich versuche zu zählen, wie oft ein Wort in einer TXT-Datei mit Python3 erscheint
import string
words = {}
def unique_words2(filename):
strip = string.whitespace + string.punctuation + string.digits + "\"'"
for line in open(filename):
for word in line.lower().split():
if word == " ":
continue
else:
word = word.strip(strip)
words[word] = words.get(word, 0) + 1
for word in sorted(words):
print("{0} {1}".format(word, words[word]))
unique_words2("alice.txt")
die ersten 5 Ergebnisse zeigen;
60
a 627
a--i'm 1
a-piece 1
abide 1
Es ist Ergebnisse wie 1, 3 und 4, die ich gerne beseitigen würde.
Was hat das mit 'urllib' zu tun? Ich habe dieses Tag entfernt. Sie können auch unerwünschte Zeichen mit dem 're' Modul ersetzen. – ChrisP