Java + Hadoop + NoSql (welche Kombinationen zu verwenden)

Ich bin neu dazu, und meine Anforderung lautet wie folgt:
Ich möchte riesigen Dataset mit Film Bewertungen (im Textformat) verarbeiten und sie in einigen speichern NoSQL-Datenbank, dann einige Verarbeitung und empfehlen Filme für einen bestimmten Film.Java + Hadoop + NoSql (welche Kombinationen zu verwenden)

Also brauche ich Geschwindigkeit - ich denke, Hadoop würde mir dabei helfen, und Daten in NoSQL-Datenbank zu halten, würde weiter in Geschwindigkeit helfen. Ich würde gerne wissen, ob ein anderer Ansatz gut bekannt ist und welche Kombinationen verwendet werden, mit Java

Danke

Quelle

2010-12-31 daydreamer

Wie groß ist der Datensatz? Terrabyte, Petabyte? und wie sieht Ihr Datensatz aus - Textdateien, XML, Binärformat? –

Zu diesem Zeitpunkt sind die Daten in Gigabyte und es steht alles im Text – daydreamer

Wie groß ist riesig? Vielleicht möchten Sie überprüfen Apache Mahout. Es hat sehr effiziente Datenstrukturen für genau diesen Zweck - Speicherung und Verarbeitung von spärlichen Daten für kollaborative Filteralgorithmen. Es wird mit einem Dataset von etwa 10 Millionen Bewertungen auf einem mäßig großen Rechner fertig. + Wenn Ihr Dataset aus einer Maschine heraus wächst, unterstützt es die Splitting-Verarbeitung mit Hadoop.

Quelle

2011-01-04 08:36:14 Vasil

Wenn Sie sich fragen, über die NoSQL-Datenspeicher zu verwenden, this post könnte helfen.

Quelle

2010-12-31 07:41:28 rubayeet

Java + Hadoop + NoSql (welche Kombinationen zu verwenden)

Antwort

Verwandte Themen