Ich habe eine riesige 20-GB-CSV-Datei zum Kopieren in Hadoop/HDFS. Natürlich muss ich alle Fehlerfälle verwalten (wenn der Server oder die Transfer/Load-Anwendung abstürzt).Die beste Methode zum Importieren von 20-GB-CSV-Dateien nach Hadoop
In einem solchen Fall muss ich die Verarbeitung (in einem anderen Knoten oder nicht) neu starten und die Übertragung fortsetzen, ohne die CSV-Datei von Anfang an zu starten.
Was ist der beste und einfachste Weg, das zu tun?
Verwendung von Flume? Sqoop? eine native Java-Anwendung? Funke?
Vielen Dank.
Warum verwenden Sie distcp nicht? Es sei denn, Sie möchten Daten als Stream während des Checkpointings lesen – eliasah
Ursache meine Src-Datei (20 GB) ist nicht auf hadoopn ist WebHDFS für große Dateien geeignet? –
Ich habe WebHDFS noch nie ausprobiert, aber ich glaube, dass Hadoop in der Lage ist, von lokalen zu hdfs in verteiltem Material mit distcp – eliasah