2017-11-28 7 views
-1

Normalerweise werden Data Warehouses im Zusammenhang mit Big Data auf der Basis eines Hadoop-basierten Systems wie Apache Hive (richtig?) Verwaltet und implementiert.
Auf der anderen Seite betrifft meine Frage den methodischen Prozess.
Wie wirken sich Big Data auf den Entwurfsprozess eines Data Warehouses aus?
Ist der Prozess ähnlich oder müssen neue Aufgaben berücksichtigt werden?Was ist der Unterschied zwischen einem Big Data Warehouse und einem herkömmlichen Data Warehouse?

Antwort

1

Hadoop ist in der Architektur MPP Data Warehouses ähnlich, aber mit einigen signifikanten Unterschieden. Statt starr durch eine parallele Architektur definiert zu sein, sind Prozessoren lose über einen Hadoop-Cluster miteinander verbunden und jeder kann mit unterschiedlichen Datenquellen arbeiten.

Die Datenbearbeitungs-Engine, der Datenkatalog und die Speicher-Engine können unabhängig voneinander arbeiten, wobei Hadoop als Sammelpunkt dient. Kritisch ist auch, dass Hadoop sowohl strukturierte als auch unstrukturierte Daten problemlos verarbeiten kann. Dies macht es zu einer idealen Umgebung für iterative Abfragen. Anstatt Analytics-Ausgaben gemäß den durch das Schema definierten engen Konstrukten zu definieren, können Geschäftsbenutzer experimentieren, um herauszufinden, welche Abfragen für sie am wichtigsten sind. Relevante Daten können dann extrahiert und für schnelle Abfragen in ein Data Warehouse geladen werden.

Das Hadoop-Ökosystem beginnt mit dem gleichen Ziel, so viele interessante Daten wie möglich aus verschiedenen Systemen zu sammeln, nähert sich aber auf radikal bessere Weise. Bei diesem Ansatz speichern Sie alle relevanten Daten in einem großen Datenspeicher (normalerweise HDFS - Hadoop Distributed File System). Dies ist oft im Cloud-Speicher - Cloud-Speicher ist gut für die Aufgabe, weil es billig und flexibel ist, und weil es die Daten in die Nähe von günstiger Cloud-Computing-Macht bringt. Wenn Sie möchten, können Sie ETL erstellen und ein Data Warehouse mit Tools wie Hive erstellen. Noch wichtiger ist jedoch, dass Sie weiterhin alle Rohdaten zur Verfügung haben, sodass Sie auch neue Fragen definieren und komplexe Analysen für alle Rohdaten durchführen können wenn Sie wünschen. Das Hadoop-Toolset bietet eine große Flexibilität und Analysekraft, da es große Rechenaufgaben übernimmt, indem es eine Aufgabe auf eine große Anzahl billiger Standardmaschinen aufteilt. Dadurch können Sie viel leistungsfähigere, spekulativere und schnellere Analysen durchführen als in einem herkömmlichen Lager.

Verwandte Themen