Ich versuche Tokenisierung von Wörtern in einer Textdatei mit Python 3.5, aber ein paar Fehler. Hier ist der Code:Tokenisierung von Textdatei in Python 3.5
import re
f = open('/Users/Half_Pint_Boy/Desktop/sentenses.txt', 'r')
a=0
c=0
for line in f:
b=re.split('[^a-z]', line.lower())
a+=len(filter(None, b))
c = c + 1
d = d + b
print (a)
print (c)
Meine Fragen:
Construction
a+=len(filter(None, b))
funktioniert in Python 2.7, aber in 3.5 verursachen sie einen Fehler vom Typ dieses Objekt von:Typ ' Filter 'hat keine
len()
Wie kann es sein gelöst mit Python 3.5?
Wenn ich Tokenization mache, zählt mein Code auch leere Leerzeichen als Word-Tokens. Wie kann ich sie löschen?
Vielen Dank!
danke für den ersten Punkt! aber wie genau kann ich die leeren Token nach dem Splitting komplett loswerden? – HalfPintBoy