Ich versuche, die Cosinus Ähnlichkeit zweier Dokumente dargestellt zu finden wie folgt:Kosinusähnlichkeit von Dokumenten mit Gewichten
d1: [(0,1), (3,2), (6, 1)]
d2: [(1,1), (3,1), (5,4), (6,2)]
wo jedes Dokument ein Thema-Gewichtsvektor ist, wo Themen das erste Element in dem Tupel sind und das Gewicht ist das zweite Element
Ich bin mir nicht sicher, wie man in diesem Fall mit diesem gewichteten Schema die Kosinusähnlichkeit berechnen soll? Gibt es ein Modul/Paket in Python, das mir so etwas erlauben würde?
Wenn die Vektoren lang oder es gibt viele mögliche Themen sind dann wollen Sie sie spärlich halten - sonst ist es gefährlich, sie dicht zu machen. – gabe
Stimmt, vorausgesetzt, die Vektoren sind spärlich, und es gibt eine Menge Themen. – mdml
@mdml - Danke, das N Ich nehme an, ist die Gesamtzahl der einzigartigen Themen? Wie kann ich das finden? Die Anzahl der Themen kann von Fall zu Fall variieren, ich würde wahrscheinlich eine Möglichkeit brauchen, sie a priori zu zählen – newdev14