2013-08-05 17 views

Antwort

5

Nur um zu speichern, können Sie alles in HDFS speichern. Aber das wird keinen Sinn ergeben. Zunächst sollten Sie Hadoop nicht als Ersatz für Ihr RDBMS betrachten (was Sie hier versuchen). Beide sind für ganz andere Zwecke gedacht. Hadoop eignet sich nicht für Ihre transaktionalen, relationalen oder Echtzeitanforderungen. Es sollte Ihre Offline-Stapelverarbeitung unterstützen. Daher ist es besser, Ihren Anwendungsfall richtig zu analysieren und dann Ihre Entscheidung einzufrieren. Als Vorschlag möchte ich Sie auf Hive hinweisen. Es bietet Warehousing-Funktionen zusätzlich zu Ihrem vorhandenen Hadoop-Cluster. Es bietet auch eine SQL-ähnliche Schnittstelle zu Ihrem Warehouse, die Ihr Leben viel einfacher macht, wenn Sie aus dem SQL-Hintergrund kommen. Aber auch hier ist Hive ein Stapelverarbeitungs-System und passt nicht gut, wenn Sie etwas in Echtzeit benötigen.

Sie können sehen, HBase obwohl, wie von abhinav vorgeschlagen. Es ist eine Datenbank, die auf Ihrem Hadoop-Cluster ausgeführt werden kann und Ihnen zufälligen Echtzeit-Lese-/Schreibzugriff auf Ihre Daten bietet. Aber Sie sollten immer daran denken, dass es sich um eine NoSQL-Datenbank handelt. Es folgt nicht den SQL-Terminologien und -Konventionen. Also, Sie könnten es anfangs ein bisschen fremd finden. Sie müssen sich möglicherweise Gedanken darüber machen, wie Sie Ihre Daten in einem neuen Speicherstil (säulenartig) speichern können, anders als im Row-Style-Speicher Ihres RDBMS. Ansonsten ist es kein Problem, es einzurichten und zu verwenden.

HTH

0

Jede Datei kann in HDFS gespeichert werden. Aber wenn Sie eine SQL-DB wollen, sollten Sie HBASE wählen. Wenn Sie Ihre Daten direkt in HDFS speichern, können Sie keine Rationalität speichern.

+1

sollten Sie fügen, wie er relationale Daten zu einem säule Speicher wie HBase speichern kann. –

Verwandte Themen