2017-05-22 7 views
0

Ich versuche, Benutzer-Benutzer-Ähnlichkeiten durch Kosinusähnlichkeit zu berechnen, indem ich zwei verschiedene Datensätze benutze (Benutzer sind die gleichen, die Merkmale, die zum Erhalten von Ähnlichkeiten in Betracht gezogen werden, unterscheiden sich zwischen den Datensätzen). Kann ich nun sagen, wie ähnlich diese beiden Datensätze auf den Ähnlichkeitswerten basieren?Wie kann ich zwei Ähnlichkeiten vergleichen, die mit zwei verschiedenen Datensätzen erzielt wurden?

Antwort

0

Ich denke, die Antwort hier sollte nein sein, es sei denn, es gibt keine gemeinsamen Merkmale in den beiden Datensätzen (wenn sie nur in Einheiten unterscheiden, können Sie sie beide normalisieren und verwenden). Beispielsweise können Sie einem Benutzer keine Filme empfehlen, die zwei verschiedene Datensätze verwenden, wobei einer nur das Alter und Geschlecht der Benutzer enthält, während der andere nur die Lieblingsgenres, die die Benutzer mögen, enthält, und die beiden Ergebnisse vergleicht.

Ihr Abfragevektor sollte außerdem dieselben Features wie der Datensatz aufweisen, den der Ähnlichkeitssuchalgorithmus verwendet.

In Ihrem Fall, wenn die Abfrage Funktionen der beiden Datensätze hat, können Sie die k Nearest Neighbors in beiden (z. B.) finden und sie beide, d. H. 2k Ergebnisse zurückgeben. Aber Sie können nicht zwischen den zwei Paaren von k NNs wählen, bezüglich dessen, was am besten ist. Ich würde auch empfehlen, einen Weg zu finden, die beiden Datensätze zusammenzuführen, anstatt diesem Ansatz zu folgen.

Edit: Ich fehlinterpretierte die Frage. Wenn Sie in beiden Datensätzen dieselben Benutzer haben, sollten Sie sie zusammenführen (vorzugsweise mit der Spalte "Benutzer-ID", falls vorhanden) und dann den neuen Datensatz verwenden, um die Ähnlichkeit zwischen Benutzern zu berechnen.

Ihre Frage nach der Ähnlichkeit von Datensätzen macht in diesem Zusammenhang wenig Sinn.

Verwandte Themen