Ich habe eine 10 GB CSV-Datei, und ich möchte es in Hadoop MapReduce verarbeiten. Ich habe einen Cluster mit 15 Knoten (Datanode) und ich möchte den Durchsatz maximieren.Komprimierte Datei VS unkomprimierte Datei in mapreduce. Welcher gibt bessere Leistung?
Welches Komprimierungsformat sollte ich verwenden? oder Textdatei ohne Komprimierung ergibt immer ein besseres Ergebnis als die komprimierte Textdatei. Bitte erläutern Sie den Grund.
Ich verwendete unkomprimierte Datei und es gab mir bessere Ergebnisse über Snappy. Wieso ist es so?
Hängt von Ihren Daten ab. Einige Daten können sehr gut komprimiert werden, andere können kaum komprimiert werden. Ich schlage vor, Sie versuchen ein paar und finden, was am besten für Ihre Daten funktioniert. –