Tf-Idf mit Kosinusähnlichkeit für Dokumentenähnlichkeit fast ähnlichen Satz

Ich bin mit tf-idf mit Kosinusähnlichkeit Beschreibung (Satz) ÄhnlichkeitTf-Idf mit Kosinusähnlichkeit für Dokumentenähnlichkeit fast ähnlichen Satz

Eingabezeichenfolge berechnen:

3/4x1/2x3/4 blk mi tee

Im Folgenden sind die Sätze

 smith-cooper&reg; 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 1 x 1/2 x 3/4 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 1-1/4 x 1 x 3/4 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 1-1/2 x 3/4 x 1-1/2 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 1-1/2 x 1-1/4 x 1 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 2 x 2 x 3/4 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 2 x 1-1/2 x 1-1/4 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 2-1/2 x 2 x 2 in npt 150 lb malleable iron black 
     smith-cooper&reg; 33rt1 reducing pipe tee 3 x 3 x 2 in npt 150 lb malleable iron black

unter denen ich brauche Satz Eingabestring ähnlich zu finden, wie die Sätze fast ähnlich sind, ich TF-IDF Ansatz verwenden, die Worte geringe Punktzahl geben Diese erscheinen in allen Dokumenten (IDF) und geben den einzelnen Wörtern mehr Punkte, was es einfacher macht, das ähnliche Dokument zu finden.

Gibt es einen Ansatz, der besser funktioniert?

Quelle

2017-10-19 Ranjana Girish

Es gibt sicherlich andere Ansätze wie latente semantische Analyse, aber was am besten funktioniert, hängt vollständig von Ihren Daten/Korpus. Meiner Erfahrung nach ist TF-IDF ein guter Ausgangspunkt. Kompliziertere Ansätze können schlechter als TF-IDF sein oder im Vergleich zu ihrer Komplexität eine vernachlässigbare Verbesserung bieten.

Etwas mit TF-IDF zu experimentieren ist unterschiedlich große N-Gramme und andere Vorverarbeitungsstrategien für Ihr Korpus. In diesem Beispiel möchten Sie Ihre Wörter möglicherweise nicht auf der Grundlage von Wortgrenzen spalten. Vielleicht möchten Sie einige dieser Satzkomponenten als einen einzigen Begriff betrachten, z. 3/4 x 1/2 x 3/4 als ein einziger Begriff. Ich würde zuerst mit unterschiedlich großen N-Gramm experimentieren.

In Ihrem Beispiel sind die Sätze bis auf die Maße/Dimensionen identisch. Wenn dieses Beispiel repräsentativ ist, sollten Sie sich mehr Gedanken darüber machen, wie Sie die Abstände zwischen diesen Messungen messen können.

Quelle

2017-10-19 15:43:15

Tf-Idf mit Kosinusähnlichkeit für Dokumentenähnlichkeit fast ähnlichen Satz

Antwort

Verwandte Themen