Es gibt viele populäre Algorithmen, um englische Wörter zu einer Zeichenkette entsprechend ihrer Aussprache zu kodieren. Beispielsweise sind Soundex-Codes Vier-Zeichen-Strings, die aus einem einzelnen Buchstaben bestehen, gefolgt von drei Zahlen.Wie wird der Ähnlichkeitswert zwischen englischen Wörtern entsprechend ihrer Aussprache berechnet?
Gibt es eine effiziente Möglichkeit, einen Ähnlichkeitswert zwischen 0 und 1 zu berechnen?
Beachten Sie, dass soundex _codes_ speziell für Namen, nicht zufällige Wörter gedacht sind. Durch das Speichern des ersten Buchstabens verlieren Sie eine Ähnlichkeitsgruppe. Wenn die Länge auf 4 festgelegt wird, werden kurze und lange Wörter künstlich identisch. Es basiert auch auf einem überholten Sprachverständnis. – MSalters