Ich habe einen großen Datenrahmen mit Personen Daten. Ich möchte alle seltsamen Diakritika abflachen und sie in den nächsten Ascii-Charakter konvertieren. Auf der Basis einer Lösung fand ich SO in ich folgendes:Normalisierung vermisst polnische Zeichen
for column in df.columns:
df[column] = df[column].astype("str").str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
Es ist für den meisten Fällen funktioniert (nicht überprüft sie alle) aber habe ich bemerkt, es Buchstaben ‚L‘ in der polnischen vermisst. Zum Beispiel wird Lech Wałęsa
in Lech Waesa
übersetzt, während meine Erwartung wäre, Lech Walesa
zu sehen. Meine Vermutung wäre, dass es ignore
Parameter in str.encode
Methode ist. Irgendeine Idee, wie man es für irgendein diakritisches arbeitet?
Dies funktionierte perfekt für mich. Ich wähle es als die beste Antwort wegen seiner Einfachheit. – pawelty