0

Bei der Zerlegung einer Bewertungsmatrix für das Empfehlungssystem kann die Bewertungsmatrix als P * t (Q) geschrieben werden, wobei P die Benutzerfaktormatrix und Q die Faktormatrix darstellt. Die Dimension von Q kann als Rang * Anzahl der Elemente geschrieben werden. Ich frage mich, ob die Werte in der Q-Matrix tatsächlich irgendetwas darstellen, wie etwa das Gewicht des Gegenstands? Und gibt es irgendeine Möglichkeit, versteckte Muster in der Q-Matrix zu finden?Was bedeuten die Werte von latenten Merkmalsmodellen für Benutzer- und Elementmatrix im Collaborative-Filter?

Antwort

0

Denken Sie an Features als die wichtige Richtung der Varianz in mehrdimensionalen Daten. Stellen Sie sich ein 3-D-Diagramm vor, das zeigt, welche von 3 Artikeln der Benutzer gekauft hat. Es wäre ein amorpher Blob, aber die tatsächliche Achse oder Orientierung des Blobs ist wahrscheinlich nicht entlang der x, y, z-Achsen. Die Vektoren, an denen es sich orientiert, sind die Merkmale in Vektorform. Nehmen Sie dies zu großen dimensionalen Daten (viele Benutzer, viele Elemente) und diese hochdimensionalen Daten können sehr oft von einer kleinen Anzahl von Vektoren überspannt werden, die meisten Abweichungen nicht entlang dieser neuen Achsen sind sehr klein und können sogar Rauschen sein. Ein Algorithmus wie ALS findet also diese wenigen Vektoren, die den größten Teil der Datenspanne repräsentieren. Daher können "Merkmale" als die primären Varianzmodi in den Daten angesehen werden oder anders ausgedrückt, die Archetypen, um zu beschreiben, wie sich ein Gegenstand von einem anderen unterscheidet.

Beachten Sie, dass die PQ-Faktorisierung in Empfehlern darauf angewiesen ist, unbedeutende Merkmale zu löschen, um eine potenziell enorme Komprimierung der Daten zu erreichen. Diese unbedeutenden Merkmale (die nur eine sehr geringe Varianz bei der Benutzer-/Elementeingabe aufweisen) können verworfen werden, da sie oft als Rauschen interpretiert werden und in der Praxis bessere Ergebnisse liefern, wenn sie verworfen werden.

Können Sie versteckte Muster finden; sicher. Die neuen, kleineren, aber dichten Item- und User-Vektoren können mit Techniken wie Clustering, KNN, etc. behandelt werden. Sie sind nur Vektoren in einem neuen "Raum", definiert durch die neuen Basisvektoren - die neuen Achsen. Wenn Sie das Ergebnis solcher Operationen interpretieren möchten, müssen Sie sie in den Benutzerbereich & zurücktransformieren.

Die Essenz von ALS (PQ Matrix factorization) besteht darin, den Merkmalsvektor des Benutzers in den Objektbereich zu transformieren und nach den Objektgewichten einzustufen. Die am höchsten bewerteten Artikel werden empfohlen.

Verwandte Themen