2016-12-27 6 views
1

Ich muss die Indizierung in Oracle Vs Hadoop (Hive) vergleichen. Bis jetzt konnte ich zwei wichtige Indizierungstechniken in Hive finden, d.h. COMPACT INDEXING und BITMAP INDEXING. Ich könnte den Leistungsunterschied von COMPACT INDEXING in Hive im Vergleich zu Oracle überprüfen. Ich würde mehr Anwendungsfälle/Szenarien der Verwendung von Bitmap-Indexierung in Hive verstehen müssen. Außerdem müssen Sie wissen, ob Hive Reverse-Key-Indizes, aufsteigende und absteigende Indizes wie Oracle unterstützt.Gibt es Vorteile bei der Verwendung von Indizes für Tabellen in Hadoop gegenüber Oracle?

Antwort

1
  • JA ihre sind wesentliche Vorteile in HIVE über Orakel mit Index, in Anbetracht, dass HIVE für große Datenmengen geeignet ist und noch ihre sind Entwicklungen bei der Herstellung von HIVE ein Echtzeit-Daten Warehousing-Tool.
  • Ein Anwendungsfall, in der BITMAP Indizierung verwendet werden kann, ist in dem Tisch mit Spalten unterschiedliche Werte aufweisen und natürlich soll es ein großer Tisch (Sie werden bessere Ergebnisse, wenn Tabelle groß ist, nicht mit kleinen Tischen testen) .
  • Ab sofort unterstützt HIVE nur zwei Indizierungstechniken COMPACT und BITMAP zum expliziten Erstellen von Indizes.
  • Auch Indizes in Hive werden nicht empfohlen (obwohl Sie als pro Ihren Anwendungsfall erstellen können), der Grund dafür ist ORC Format.
  • ORC-Format hat eingebaute Indizes, die das Format Blöcke von Daten während des Lesens überspringen können, sie unterstützen auch Bloom-Filter-Index. Together dies ziemlich repliziert, was Hive-Indizes getan haben, und sie tun es automatisch im Datenformat ohne die Notwendigkeit, eine externe Tabelle zu verwalten (was im Wesentlichen passiert, was in Indizes passiert).

  • Ich würde vorschlagen, dass Sie lieber Ihre Zeit verbringen, um die ORC-Tabellen richtig einzurichten.

    lesen Sie auch diesen tollen Beitrag über hive indexing.

+0

Danke für die Erwähnung eingebauter Indizes im ORC-Format. –

0

Hive ist Data Warehousing-Tool, das auf Hadoop läuft. integriert hat es MapReduce-Kapazität für Hive-Abfragen. Die Metadaten und Actula Daten werden getrennt und im Apache Derby gespeichert. Daher ist die Belastung für die Datenbank sehr gering. Bienenstock große Tabellen leicht wegen der distributive Natur verarbeiten. und Sie können auch die innere Joins-Leistung von Orakel und Bienenstock vergleichen. Bienenstock Willen gibt Ihnen immer bessere Leistung.

Verwandte Themen