2016-06-28 4 views
-1

Alles, was ich bis jetzt finden kann, ist einige Empfehlungs-Engines, die alles im Speicher basierend auf CSV-Dateien als Datasets erstellen und bereitstellen, also etwa 1 M Daten und etwa 3700 Benutzer pro Tag haben. In meinem Fall hat meine Firma ungefähr 1 M aktives Element, ungefähr 4000 aktive Benutzer (Durchschnitt) pro Tag und ungefähr 4.5 M Seitenbesuch pro Woche (Durchschnitt).Wie baue ich ein Echtzeit-Empfehlungssystem mit Apache Spark?

Die Idee, Elemente in der Erinnerung zu bauen, zu trainieren und zu empfehlen, ist so schlecht, dass ich denke, eine Recommander-Engine zu bauen, aber irgendwie in Echtzeit! Wie ? das ist, was ich suche, vielleicht trainiere Daten und stelle sie zu einem Indexer wie elasticsearch oder etwas, das zu recommand Einzelteilen ähnlich ist.

Irgendeine Segmentierung?

+0

Spark kann noch mit Daten umgehen, die nicht in den Speicher passen, haben Sie das gesehen [Artikel] (https://0x0fff.com/spark-memory-management/)? –

Antwort

1

Wenige Dinge, die ich in Betracht ziehen würde tun.

  • maschinelles Lernen Verwenden der Funktionen von Element zu extrahieren, diese möglicherweise wieder auf jenen Artikel ein wieder
  • Analysieren Verwendung Verhaltensweisen neu trainiert werden würde, umfassen Stream klicken
  • Mit AB Testalgorithmus, um zu überprüfen
  • Funken verwenden Stream