2017-02-13 3 views
-2

Mein S3 Verzeichnis zu lesen istMapReduce Verwendung der Dateien innerhalb eines Verzeichnisses

/sssssss/xxxxxx/rrrrrr/xx/file1 
/sssssss/xxxxxx/rrrrrr/xx/file2 
/sssssss/xxxxxx/rrrrrr/xx/file3 
/sssssss/xxxxxx/rrrrrr/yy/file4 
/sssssss/xxxxxx/rrrrrr/yy/file5 
/sssssss/xxxxxx/rrrrrr/yy/file6 

Wie mein mapreduce Programm diese Dateien auf S3 zu lesen?

+0

Stellen Sie klar, was mit dem Titel gemeint ist –

Antwort

0

Für einen Eingangsweg Sie wie folgt vor:

FileInputFormat.addInputPath(job, new Path("/sssssss/xxxxxx/rrrrrr/xx/")); 

Für zwei Eingangspfade, Sie wie folgt vor:

FileInputFormat.addInputPath(job, new Path("/sssssss/xxxxxx/rrrrrr/xx/")); 
FileInputFormat.addInputPath(job, new Path("/sssssss/xxxxxx/rrrrrr/yy/")); 

oder addInputPaths() verwenden. Weitere Informationen finden Sie unter the documentation of FileInputPath (abhängig von Ihrer Version von Hadoop).

0

Es kann durch die folgende Art und Weise vereinfacht werden: -

FileInputFormat.setInputDirRecursive(job, true); 
FileInputFormat.addInputPaths(conf, args[0]); 

Sie müssen nur den Basispfad des s3 dir und nicht die genaue Lage jedes einzelnen Datei geben. Es wird zum letzten Verzeichnis gehen, das die Datei enthält.

Verwandte Themen