GlusterFS als Backend für Hadoop

Ich habe gesehen, Redhat hat eine mögliche Lösung mit GlusterFS als Backend für Hadoop. In diesem Fall können Sie die Architektur mit dem Namen node/datanode aufrufen und durch glusterfs ersetzen, während Sie noch über die API-Kompatibilität von Hadoop Mapreduce verfügen.GlusterFS als Backend für Hadoop

Ich frage mich nur, wie sich die Leistung gegen native-HDFS vergleicht? Ist es wirklich produktionsreif? Unterstützt es auch das gesamte Hadoop-Ökosystem? z.B. Solr Cloud, Spark, Impala usw. usw.

Quelle

2015-11-12 Shengjie

Haftungsausschluss: Ich arbeite für Storage-Anbieter. Gut. Ich weiß nicht besonders viel über GlusterFS, aber ich kann über Lustre sprechen, da es POSIX am Ende des Tages ist. Es ist ein paralleles Dateisystem, aber die Benchmarks, die ich kürzlich untersucht habe, zeigten, dass es HDFS übertrifft. aber es ist definitiv eine produktionsfertige Alternative, die einen einzigen Namensplatz für Ihre Daten bietet (keine HDFS-Aufnahme mehr).

Was funktioniert heute vom Hadoop-Ökosystem? was ich in der Produktion heute gesehen habe, ist Spark, Hive, Hbase. Imapala sieht für mich bestimmte Teile von HDFS vor, deshalb funktioniert es nicht mit POSIX FS und es ist nicht HCFS. Ich habe einen schnellen Test gemacht, und ich konnte die Datenbank und alles erstellen, aber ich konnte keine Zeilen abrufen.

Lassen Sie mich, wenn Sie weitere Hilfe benötigen.

Quelle

2015-12-08 12:00:50

Können Sie etwas konkreter sein, warum es HDFS übertrifft? und welche Teile von HDFS für einige Frameworks benötigt werden, z. Impala. – Shengjie

Die Benchmarks, die ich gesehen habe, zeigen, dass Lustre im Vergleich zu HDFS weniger Ausführungszeit hat. Die ganze Idee, mit POSIX-Dateisystem zu gehen, konzentriert sich hauptsächlich auf die folgenden Punkte: - Sie überspringen den Teil der Aufnahme von Daten in HDFS (dies kann bei einem sehr großen Datensatz ewig dauern). 2- Sie verlieren viel Festplattenkapazität mit HDFS, POSIX FS-Implementierung basiert auf Enterprise-RAID-Schutz. Für Impala bin ich nicht sicher, welche Teile des Codes HDFS benötigen, aber ich weiß nicht, wie heute jede Imapla läuft auf POSIX FS –

Vielen Dank für die Erklärung. – Shengjie

GlusterFS als Backend für Hadoop

Antwort

Verwandte Themen