In meinem Datensatz habe ich eine kategorische Funktionen, die den Namen eines Landes darstellen, aber manchmal sind einige von ihnen falsch geschrieben.Alternative zu OneHotEncoder, wenn Zeichenfolge in Python falsch geschrieben wird
Zum Beispiel könnte 'Frankreich' auch als 'Francz' und 'Franc' geschrieben werden.
Wissen Sie, ob in Python ein Algorithmus existiert, der Strings in numerische Werte mit einer Ähnlichkeit in Wörtern umwandelt. Also, dass für mein Beispiel oben wird der Wert sehr ähnlich sein?
Ich glaube nicht, es ist ein Werkzeug, das dies tun können. Möglicherweise müssen Sie Ihr Dataset bereinigen, indem Sie den Ländernamen für diese Zeilen aktualisieren. Was ist die Häufigkeit solcher Fehler? Wenn es extrem niedrig ist, können Sie das einfach ignorieren. – Max08