Ich habe eine Funktion, die Zeichensetzung aus einer Liste von Strings entfernt:Interpunktion von Unicode formatierte Strings
def strip_punctuation(input):
x = 0
for word in input:
input[x] = re.sub(r'[^A-Za-z0-9 ]', "", input[x])
x += 1
return input
ich meinen Skript vor kurzem Unicode geändert zum Einsatz von Strings, so konnte ich andere nicht-westliche Zeichen verarbeiten. Diese Funktion bricht, wenn sie auf diese Sonderzeichen trifft, und gibt nur leere Unicode-Zeichenfolgen zurück. Wie kann ich Interpunktion von Unicode-formatierten Zeichenfolgen zuverlässig entfernen?
'strip_punctuation()' sollte akzeptieren Strings anstelle von Liste der Zeichenfolgen, dann, wenn Sie es brauchen, könnten Sie 'list_of_strings = map (strip_punctuation, list_of_strings)' – jfs
Das könnte ein besserer Weg tatsächlich sein. Ich mag die Implementierungen Ihrer und F.C. unter Verwendung von Unicode-Kategorien. – acpigeon