Ich habe gesehen, Redhat hat eine mögliche Lösung mit GlusterFS als Backend für Hadoop. In diesem Fall können Sie die Architektur mit dem Namen node/datanode aufrufen und durch glusterfs ersetzen, während Sie noch über die API-Kompatibilität von Hadoop Mapreduce verfügen.GlusterFS als Backend für Hadoop
Ich frage mich nur, wie sich die Leistung gegen native-HDFS vergleicht? Ist es wirklich produktionsreif? Unterstützt es auch das gesamte Hadoop-Ökosystem? z.B. Solr Cloud, Spark, Impala usw. usw.
Können Sie etwas konkreter sein, warum es HDFS übertrifft? und welche Teile von HDFS für einige Frameworks benötigt werden, z. Impala. – Shengjie
Die Benchmarks, die ich gesehen habe, zeigen, dass Lustre im Vergleich zu HDFS weniger Ausführungszeit hat. Die ganze Idee, mit POSIX-Dateisystem zu gehen, konzentriert sich hauptsächlich auf die folgenden Punkte: - Sie überspringen den Teil der Aufnahme von Daten in HDFS (dies kann bei einem sehr großen Datensatz ewig dauern). 2- Sie verlieren viel Festplattenkapazität mit HDFS, POSIX FS-Implementierung basiert auf Enterprise-RAID-Schutz. Für Impala bin ich nicht sicher, welche Teile des Codes HDFS benötigen, aber ich weiß nicht, wie heute jede Imapla läuft auf POSIX FS –
Vielen Dank für die Erklärung. – Shengjie