2010-12-31 13 views
1

Ich bin neu dazu, und meine Anforderung lautet wie folgt:
Ich möchte riesigen Dataset mit Film Bewertungen (im Textformat) verarbeiten und sie in einigen speichern NoSQL-Datenbank, dann einige Verarbeitung und empfehlen Filme für einen bestimmten Film.Java + Hadoop + NoSql (welche Kombinationen zu verwenden)

Also brauche ich Geschwindigkeit - ich denke, Hadoop würde mir dabei helfen, und Daten in NoSQL-Datenbank zu halten, würde weiter in Geschwindigkeit helfen. Ich würde gerne wissen, ob ein anderer Ansatz gut bekannt ist und welche Kombinationen verwendet werden, mit Java

Danke

+0

Wie groß ist der Datensatz? Terrabyte, Petabyte? und wie sieht Ihr Datensatz aus - Textdateien, XML, Binärformat? –

+0

Zu diesem Zeitpunkt sind die Daten in Gigabyte und es steht alles im Text – daydreamer

Antwort

0

Wie groß ist riesig? Vielleicht möchten Sie überprüfen Apache Mahout. Es hat sehr effiziente Datenstrukturen für genau diesen Zweck - Speicherung und Verarbeitung von spärlichen Daten für kollaborative Filteralgorithmen. Es wird mit einem Dataset von etwa 10 Millionen Bewertungen auf einem mäßig großen Rechner fertig. + Wenn Ihr Dataset aus einer Maschine heraus wächst, unterstützt es die Splitting-Verarbeitung mit Hadoop.

0

Wenn Sie sich fragen, über die NoSQL-Datenspeicher zu verwenden, this post könnte helfen.