Ich habe zwei Vektoren, von denen jeder eine Reihe von Strings enthält. Zum BeispielFuzzy Matching zwei Saiten uring r
V1=c("pen", "document folder", "warn")
V2=c("pens", "copy folder", "warning")
Ich muss herausfinden, welche zwei am besten übereinstimmen. Ich benutze direkt Levenshtein Entfernung. Aber es ist nicht gut genug. In meinem Fall sollten Stift und Stifte dasselbe bedeuten. Dokumentenordner und Kopierordner sind wahrscheinlich das Gleiche. Warnung und Warnung sind eigentlich gleich. Ich versuche die Pakete wie tm zu benutzen. Aber ich bin mir nicht sicher, welche Funktionen dafür geeignet sind. Kann mir jemand davon erzählen?
Sie müssen sich 'stringdist' anschauen. –
wahrscheinlich müssen Sie ein benutzerdefiniertes Wörterbuch der Art machen. [Dieses Beispiel mit Wordnet] (http://stackoverflow.com/questions/7512472/extracting-synonym-terms-from-wordnet-using-synonym) kann hilfreich sein – Aramis7d
Lesen Sie auf Levenshtein Entfernung. Es ist im Grunde - wie viele "single move" Änderungen vorgenommen werden müssen, um Strings zu entsprechen. Am besten wäre es, diesen Wert zu minimieren. '? adist' –