Hadoop: Wie funktioniert OutputCollector während MapReduce?

Ich möchte wissen, ob die 'Instanz'-Ausgabe des OutputCollectors in der Map-Funktion verwendet wird: output.collect (Schlüssel, Wert) this -output- Werden die Schlüsselwertpaare irgendwo gespeichert? auch wenn es an die Reducer-Funktion ausgibt, müssen sie eine Zwischendatei sein, oder? Was sind diese Dateien? Sind sie vom Programmierer sichtbar und entschieden? Sind die OutputKeyClass und OutputValueClasses, die wir in der Hauptfunktion angeben, diese Speicherorte? [Text.class und IntWritable.class]Hadoop: Wie funktioniert OutputCollector während MapReduce?

Ich gebe den Standardcode für Word Count Beispiel in MapReduce, die wir an vielen Stellen im Netz finden können.

public class WordCount { 

public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 

public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { 
String line = value.toString(); 
StringTokenizer tokenizer = new StringTokenizer(line); 
while (tokenizer.hasMoreTokens()) { 
word.set(tokenizer.nextToken()); 
output.collect(word, one); 
} 
} 
} 

public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { 
public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { 
int sum = 0; 
while (values.hasNext()) { 
sum += values.next().get(); 
} 
output.collect(key, new IntWritable(sum)); 
} 
} 

public static void main(String[] args) throws Exception { 
JobConf conf = new JobConf(WordCount.class); 
conf.setJobName("wordcount"); 

conf.setOutputKeyClass(Text.class); 
conf.setOutputValueClass(IntWritable.class); 

conf.setMapperClass(Map.class); 
conf.setCombinerClass(Reduce.class); 
conf.setReducerClass(Reduce.class); 

conf.setInputFormat(TextInputFormat.class); 
conf.setOutputFormat(TextOutputFormat.class); 

FileInputFormat.setInputPaths(conf, new Path(args[0])); 
FileOutputFormat.setOutputPath(conf, new Path(args[1]));  
JobClient.runJob(conf); 
} 
}

Quelle

2012-06-12 catty

Warum möchten Sie auf diese temporären Dateien zugreifen? Haben Sie eine bestimmte Sache, die Sie erreichen möchten? oder ist es nur Kuriosität? – adranale

Ich möchte den Speicherort dieser temporären Dateien ändern. – catty

Ich glaube, sie in temporären Orten gespeichert werden und nicht für den Entwickler zur Verfügung, wenn Sie Ihre eigene Klasse erstellen, die OutputCollector implementiert.

Ich musste einmal auf diese Dateien zugreifen und das Problem gelöst durch Nebeneffekt Dateien erstellt: http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+Side-Effect+Files

Quelle

2012-06-12 12:55:03 Ulises

Hat jemand den Code für die .collect() - Funktion von OutputCollector? – catty

Die Ausgabe von der Map-Funktion in Temporäre Zwischendateien gespeichert ist. Diese Dateien werden von Hadoop transparent behandelt. In einem normalen Szenario hat der Programmierer keinen Zugriff darauf. Wenn Sie wissen möchten, was in den einzelnen Mappern passiert, können Sie die Protokolle für den jeweiligen Job überprüfen, in denen Sie eine Protokolldatei für jede Map-Aufgabe finden.

Wenn Sie steuern möchten, wo die temporären Dateien generiert werden und Zugriff darauf haben, müssen Sie Ihre eigene OutputCollector-Klasse erstellen, und ich weiß nicht, wie einfach das ist.

Wenn Sie sich den Quellcode ansehen möchten, können Sie svn verwenden, um es zu bekommen. Ich denke, es ist hier verfügbar: http://hadoop.apache.org/common/version_control.html.

Quelle

2012-06-14 05:21:01 Chaos

Die gruppierten Zwischenausgänge werden immer in SequenceFiles gespeichert. Anwendungen können angeben, ob und wie die Zwischenausgaben komprimiert werden sollen und welche CompressionCodecs über die JobConf verwendet werden sollen.

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/Mapper.html

Quelle

2013-09-25 10:31:12

Hadoop: Wie funktioniert OutputCollector während MapReduce?

Antwort

Verwandte Themen