Normalerweise werden Data Warehouses im Zusammenhang mit Big Data auf der Basis eines Hadoop-basierten Systems wie Apache Hive (richtig?) Verwaltet und implementiert.
Auf der anderen Seite betrifft meine Frage den methodischen Prozess.
Wie wirken sich Big Data auf den Entwurfsprozess eines Data Warehouses aus?
Ist der Prozess ähnlich oder müssen neue Aufgaben berücksichtigt werden?Was ist der Unterschied zwischen einem Big Data Warehouse und einem herkömmlichen Data Warehouse?
Antwort
Hadoop ist in der Architektur MPP Data Warehouses ähnlich, aber mit einigen signifikanten Unterschieden. Statt starr durch eine parallele Architektur definiert zu sein, sind Prozessoren lose über einen Hadoop-Cluster miteinander verbunden und jeder kann mit unterschiedlichen Datenquellen arbeiten.
Die Datenbearbeitungs-Engine, der Datenkatalog und die Speicher-Engine können unabhängig voneinander arbeiten, wobei Hadoop als Sammelpunkt dient. Kritisch ist auch, dass Hadoop sowohl strukturierte als auch unstrukturierte Daten problemlos verarbeiten kann. Dies macht es zu einer idealen Umgebung für iterative Abfragen. Anstatt Analytics-Ausgaben gemäß den durch das Schema definierten engen Konstrukten zu definieren, können Geschäftsbenutzer experimentieren, um herauszufinden, welche Abfragen für sie am wichtigsten sind. Relevante Daten können dann extrahiert und für schnelle Abfragen in ein Data Warehouse geladen werden.
Das Hadoop-Ökosystem beginnt mit dem gleichen Ziel, so viele interessante Daten wie möglich aus verschiedenen Systemen zu sammeln, nähert sich aber auf radikal bessere Weise. Bei diesem Ansatz speichern Sie alle relevanten Daten in einem großen Datenspeicher (normalerweise HDFS - Hadoop Distributed File System). Dies ist oft im Cloud-Speicher - Cloud-Speicher ist gut für die Aufgabe, weil es billig und flexibel ist, und weil es die Daten in die Nähe von günstiger Cloud-Computing-Macht bringt. Wenn Sie möchten, können Sie ETL erstellen und ein Data Warehouse mit Tools wie Hive erstellen. Noch wichtiger ist jedoch, dass Sie weiterhin alle Rohdaten zur Verfügung haben, sodass Sie auch neue Fragen definieren und komplexe Analysen für alle Rohdaten durchführen können wenn Sie wünschen. Das Hadoop-Toolset bietet eine große Flexibilität und Analysekraft, da es große Rechenaufgaben übernimmt, indem es eine Aufgabe auf eine große Anzahl billiger Standardmaschinen aufteilt. Dadurch können Sie viel leistungsfähigere, spekulativere und schnellere Analysen durchführen als in einem herkömmlichen Lager.
- 1. Was ist der tatsächliche Unterschied zwischen Data Warehouse und Big Data?
- 2. Data Warehouse und Django
- 3. Verwalten von Ersatzschlüsseln in einem Data Warehouse
- 4. Warum ist Data Warehouse zeitabhängig?
- 5. Ist für ein Big-Data-Warehouse noch ein Sternschema notwendig?
- 6. Fragen zum Data Warehouse-Bericht
- 7. Azure Data Warehouse polybasisch Dateiformat
- 8. Azure IoT Data Warehouse-Aktualisierungen
- 9. "Data Warehouse" -ähnliches SQLite-Geschäftsdesign
- 10. SQL Server 2008 Data Warehouse
- 11. Benutzerstammdatenbank von Azure Data Warehouse
- 12. Schema-less Data Warehouse und Reporting
- 13. Azure SQL Data Warehouse Maxima
- 14. Zeit- und Datumsdimension im Data Warehouse
- 15. Data Warehouse Dimension Design, Kunde und Kontakt
- 16. Struktur im Staging-Bereich des Data Warehouse
- 17. Python: Interagieren mit komplexen Data Warehouse
- 18. Linux Data Warehouse System für Benutzerdateien?
- 19. Was ist der Unterschied zwischen einem "Data Service Layer" und einem "Data Access Layer"?
- 20. Azure SQL Data Warehouse '' NoCount 'Fehler
- 21. Tool für Azure SQL Data Warehouse-Synchronisierung
- 22. Dimension mit einem Ersatzschlüssel in sich selbst (Data Warehouse)
- 23. Fehler Bereitstellen von SQL Data Warehouse
- 24. Data Warehouse: Modellierung eines zukünftigen Zeitplans
- 25. Azure Data Warehouse Daten vom Blobspeicher laden
- 26. Korrekter Weg zur wichtigsten Data Warehouse-Faktentabelle
- 27. Azure SQL Data Warehouse Berechneter Spaltenfehler
- 28. Entwerfen von Data Warehouse von Oltp-Datenbank
- 29. Referenzielle Integrität in einem relationalen Data Warehouse. Ist es das wert? und was sind die Alternativen?
- 30. Amazon Redshift Framework (Oracle Data Warehouse-Migration)