0

Ich habe Mahout Spark-Artikel wurden mit Ähnlichkeit durch, indem Sie die Schritte in diesem Artikel folgende:Funke Artikel Ähnlichkeit Interpretation (Cross-Ähnlichkeit und Ähnlichkeit)

https://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html

konnte ich meine Daten reinigen, Setup ein Local-Only-Funke/Hadoop-Knoten und all das.

Nun hängt meine Frage mehr in der Interpretation der Matrizen. Ich habe einige Google-Abfragen mit begrenztem Erfolg ausprobiert.

Ich erstelle einen multimodalen Empfehler - und einer meiner Datensätze ist dem Mahout-Beispiel sehr ähnlich.

Beispieleingabe: Customer ActionName Product 11064612 view 241505 11086047 purchase 110915 11121878 view CERT_DL 11149030 purchase CERT_FS 11104130 view 111401 Die Ausgabe von Mahout ist 2 Matrizensätze. Eine Ähnlichkeitsmatrix und eine Kookurrenzmatrix.

Dies ist meine Ähnlichkeitsmatrix (Ich gehe davon aus Mahout meine „filter1“ Käufe verwendet)

**791207-WP** 791520-WP:11.350536461453885 791520:9.547158147208393 76130142:7.938639976084232 711215:7.0641921646893024 751309:6.805891904514283 

Wie würde ich das interpretieren? Wenn jemand 791207-WP gekauft hat, könnte sie Interesse an 791520-WP? (also würde ich den linken Teil gegen Käufe eines Kunden verwenden und Produkte im rechten Teil einstufen?).

Die Zeile für die 791.520-WP sieht wie folgt aus:

791520-WP 76151220:18.954662238247693 791604-WP:13.951210170984268 

in der Theorie also, ich würde 76.151.220 auf jemanden, der 791.520-WP gekauft haben, richtig?

Teil 2 der Frage ist die Interferenz der Kreuz Ähnlichkeitsmatrix. Denken Sie daran, dass mein Filter2 "Ansichten" ist.

Wie würde ich das interpretieren:

**790907** 76120956:14.2824428207241 791500-LXQ2:13.864741460885853 190907:10.735807818360627 

Ich nehme diese Matrix als „jemand, der die 76.120.956 Webseite besucht am Ende 790.907 Kauf“. Also sollte ich 790907 für Kunden werben, die 76120956 gekauft haben und vielleicht sogar einen Link zwischen diesen 2 Produkten auf unserer Seite hinzufügen, zum Beispiel.

Oder ist es "Leute, die die Webseite von 790907 besucht haben und gekauft haben 76120956"?

Mein Plan ist nicht, diese zu verwenden, wie sie ist. Ich werde immer noch RowSimilarity und verschiedene Quellen verwenden, um Produkte zu bewerten - aber mir fehlt die grundlegende Interpretation der Ausgaben von Mahout.

Wenn Sie eine Dokumentation kennen, die dies verdeutlicht, wäre dies ein großer Vorteil zu haben.

Vielen Dank.

Antwort

3

In beiden Fällen teilt Ihnen die Matrix mit, dass der Artikel-ID-Schlüssel den aufgelisteten Artikeln durch den LLR-Wert ähnelt, der jedem ähnlichen Artikel beigefügt ist. Ähnlich in dem Sinne, dass ähnliche Nutzer die Artikel gekauft haben. Im zweiten Fall heißt es, dass ähnliche Personen die Artikel angesehen haben und diese Ansicht scheint auch zu einem Kauf desselben Artikels geführt zu haben.

Cooccurrence funktioniert nur für Einkäufe, Cross-Occurrence fügt die Prüfung hinzu, um sicherzustellen, dass die Ansicht auch mit einem Kauf korreliert. Dadurch können Sie beide für Empfehlungen verwenden.

Die Ausgabe ist allgemein für die Verwendung mit einer Suchmaschine vorgesehen, und Sie würden die Benutzerhistorie von Käufen und Sichten als Abfrage für zwei Felder gegen die Matrizen verwenden, eine in jedem Feld.

Es gibt analoge Methoden, um auf Artikel basierende Empfehlungen zu finden.

Besser noch, verwenden Sie etwas wie die Universal Recommender hier: actionml.com/docs/ur mit PredictionIO für ein End-to-End-System.

Verwandte Themen