2017-06-19 1 views
0

Ich bekomme eine Menge dieser Nachrichten, wenn ich eine Abfrage in Hive auf Hortonworks ausführe.CorruptStatistics - Warnmeldungen bei der Verwendung von Parquet-Dateien

INFO: org.apache.parquet.CorruptStatistics: Ignorieren Statistiken , da diese Datei vor 1.8.0 erstellt wurde, finden PARKETT-251

  1. Wie dieses Problem beheben?
  2. Wenn es nicht behoben ist, was sind die Auswirkungen, da ich die Ergebnisse trotz dieser Warnungen korrekt erhalte?
+0

Warum eine INFO-Nachricht beheben ?? –

Antwort

0
  1. Sie können dieses Problem beheben, indem Umschreiben die Datei mit einem Parkettproduzenten, z.B. Hive, das ist eine neuere Parkett-MR-Bibliothek. Dann wird die Datei mit den korrekten Statistiken gefüllt.
  2. Die Ergebnisse, die Sie von diesem Parkett erzeugen, sind korrekt. Die Warnung informiert Sie nur, dass sie während der Arbeit an dieser Datei nicht alle Optimierungen in der Berechnung (Grafik) verwenden kann. Es gab eine Bug-Computing-Statistik in einer früheren Parkett-MR-Version. Dies ist jetzt behoben, aber um korrekte Statistiken zu haben (die nur für die Abfrageoptimierung verwendet werden), müssen Sie alle Dateien mit einer neueren Version neu schreiben. Die Daten in der Datei selbst sind von diesem Fehler nicht betroffen.
+0

Aber das sind nur Hive erzeugte Parkettdateien. Meine create table-Anweisung in hive hat dies - 'Gespeichert als Parkett' und 'tblproperties ("parket.compress" = "SNAPPY"). Also, ich verstehe den ersten Punkt nicht. – Sudha

Verwandte Themen