Entschuldigung für die Frage, aber ich bin ein bisschen neu zu diesen Dingen. Ich mache ein Splitting Wörter aus dem Text und setzen sie einen Index für jedes Token dict erstellen:Erstellen Sie ein Wörterbuch aus einer Liste alle Leerzeichen löschen
import re
f = open('/Users/Half_Pint_Boy/Desktop/sentenses.txt', 'r')
a=0
c=0
e=[]
for line in f:
b=re.split('[^a-z]', line.lower())
a+=len(list(filter(None, b)))
c = c + 1
e = e + b
d = dict(zip(e, range(len(e))))
Aber am Ende erhalte ich einen dict mit Leerzeichen in es wie folgt aus:
{'': 633,
'a': 617,
'according': 385,
'adjacent': 237,
'allow': 429,
'allows': 459}
Wie kann ich "" aus dem Endergebnis in dict entfernen? Wie kann ich die Indexierung danach ändern, um "" beim Index-Zählen nicht zu verwenden? (mit "" der Index zählt 633, ohne-248) Vielen Dank!
Vielen Dank für Ihre Eingabe! Aber wie kann das Zählen von "" während der Indizierung vermieden werden? – HalfPintBoy
Haben Sie diesen Code ausprobiert?Kannst du ein Beispiel geben, wo es nicht das tut, was du willst? – smarx
Ja, aber ich verstehe nicht: Wenn ich 254 eindeutige Wörter habe, warum gibt der Algorithmus Indizes mehr als 254 (bis zu 633). Wie kann das vermieden werden - um 0 von n-1 Indizes zu bekommen – HalfPintBoy