2016-03-30 12 views
0

Gibt es eine Möglichkeit, die Ähnlichkeit gegebener multipler Textinstanzen zu bestimmen, möglicherweise prozentual oder auf andere Weise, die zeigen kann, wie viel gemeinsamer Text miteinander verknüpft ist.Ähnlichkeit zwischen mehreren Textblöcken bestimmen

T1 = abcabcabc 
T2 = xyzabcxyzabcxyz 
T3 = abcxyzabc 

Ähnlichkeit wäre so etwas wie:

*abc*abc* or maybe 66% 

ich nicht mehr spezifisch zur Zeit sein kann.

Wenn Code zur Verfügung gestellt wird, bevorzuge ich Python, aber jede Skriptsprache oder ähnliches ist gut, auch Pseudocode oder Verweis auf Problemlösungsseiten.

Antwort

1

Es gibt Arten von Methoden, um die Entfernung zwischen Text zu messen.

Überprüfen Sie String metric für weitere Details.

Und es gibt ein Gerät Levenshtein distance auf pypi, ich habe es nicht selbst versucht.

Es ist eine weitere auf wiki

Während Levenshtein Abstand der minimalen Schritt berechnen eine Zeichenfolge in ein anderes zu konvertieren, können Sie step/len(string) verwenden, um die Ähnlichkeit Prozent der zwei String zu erhalten.

Verwandte Themen