Ich habe eine Reihe von Strings, nicht viele (vielleicht ein paar hundert), aber oft lang (ein paar hundert Zeichen).Gruppierung Strings nach Ähnlichkeit
Die Zeichenfolge, in der Regel, Unsinn und anderes von den anderen .. aber in einer Gruppe jener Schnur, vielleicht 5 von 300, gibt es eine große Ähnlichkeit. In der Tat sind sie die gleiche Zeichenfolge, was unterscheidet formatiert, Zeichensetzung und ein paar Worte ..
Wie ich diese Gruppe von String arbeiten kann?
By the way, ich bin in Ruby zu schreiben, aber wenn nichts anderes wäre ein Algorithmus in Pseudo-Code in Ordnung sein.
dank
Broken Link, bekommen ein 403 verboten :( –
Sorry, dass es fehlt. Ich habe einen Link zu einem Wikipedia-Artikel mit ähnlichen Informationen hinzugefügt. –