2013-07-07 10 views
5

Kann ich Mahout so konfigurieren, dass Eingabedaten von einem Cassandra-Cluster abgerufen werden, während ein Recommender-Job über Hadoop ausgeführt wird?Skalierung von Cassandra und Mahout mit Hadoop

Ich habe einige Ressourcen zu diesem Thema gefunden - siehe http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html, aber die dort beschriebenen Anzeigen scheinen nicht zu funktionieren (versucht sowohl auf Mahout-0.6 und Mahout-0.7). Zur Zeit scheint die itemIDIndexPath-Variable weder in der RecommenderJob-Klasse noch in den abstrakten Klassen, die sie erweitert, zu existieren.

Antwort

0

Ich habe versucht, Pig/Hive-Abfragen gegen Cassandra auszuführen und fand es unter Last ziemlich instabil. Das Problem ist, dass Cassandras Lesepfad ziemlich ineffizient ist, besonders gegenüber Thrift. Ich würde empfehlen, die Daten als Zwischenschritt in HDFS zu speichern und von dort aus

zu verarbeiten