Iterative MapReduce

Ich habe einen einfachen K-Means-Clustering-Code für Hadoop geschrieben (zwei separate Programme - Mapper und Reducer). Der Code arbeitet über einen kleinen Datensatz von 2d Punkten auf meiner lokalen Box. Es ist in Python geschrieben und ich möchte Streaming API verwenden.Iterative MapReduce

Ich möchte Vorschläge, wie Sie dieses Programm auf Hadoop am besten ausführen.

Nach jedem Lauf von Mapper und Reducer werden neue Zentren generiert. Diese Zentren werden für die nächste Iteration eingegeben.

Soweit ich sehen kann, muss jede mapreduce-Iteration ein separater mapreduce-Job sein. Und es sieht so aus, als würde ich ein weiteres Skript (Python/Bash) schreiben müssen, um die neuen Center aus HDFS nach jeder Reduktionsphase zu extrahieren und es dem Mapper wieder zuzuführen.

Irgendein einfacherer, weniger unordentlicher Weg? Wenn der Cluster zufällig einen fairen Scheduler verwendet, wird es sehr lange dauern, bis diese Berechnung abgeschlossen ist.

Quelle

2010-12-27 Deepak

Fühlt sich lustig an, meine eigene Frage zu beantworten. Ich habe PIG 0.9 verwendet (noch nicht veröffentlicht, aber im Kofferraum verfügbar). Dabei wird Modularität und Flusskontrolle unterstützt, indem PIG-Anweisungen in Skriptsprachen wie Python eingebettet werden können.

Also schrieb ich ein Haupt-Python-Skript, das eine Schleife hatte, und innerhalb dieser meine PIG-Skripte aufgerufen. Die PIG-Skripte haben Aufrufe an die UDFs getätigt. Also, musste drei verschiedene Programme schreiben. Aber es hat gut geklappt.

Sie das Beispiel hier überprüfen - http://www.mail-archive.com/[email protected]/msg00672.html

Für die Aufzeichnung wurden meine UDF auch in Python geschrieben, diese neue Funktion verwenden, das Schreiben von benutzerdefinierten Funktionen in Skriptsprachen ermöglicht.

Quelle

2011-01-31 11:39:13 Deepak

Die Java-Schnittstelle von Hadoop hat das Konzept mehrere Jobs von Verkettungs: http://developer.yahoo.com/hadoop/tutorial/module4.html#chaining

Da jedoch Sie Hadoop Streaming verwenden Sie keine Unterstützung haben für Arbeitsplätze Verkettungs und Verwaltung von Workflows.

Sie sollten Oozie Kasse, die die Arbeit für Sie tun sollten: http://yahoo.github.com/oozie/

Quelle

2010-12-29 23:12:12

Hier ein paar Möglichkeiten, es zu tun: github.com/bwhite/hadoop_vision/tree/master/kmeans

Überprüfen Sie auch dies heraus (hat oozie Unterstützung): http://bwhite.github.com/hadoopy/

Quelle

2011-01-18 08:27:23

Sie brauchen keinen anderen Job zu schreiben. Sie können denselben Job in eine Schleife (eine while-Schleife) einfügen und die Parameter des Jobs einfach ändern. Wenn der Mapper und Reducer ihre Verarbeitung abgeschlossen haben, beginnt die Steuerung mit der Erstellung einer neuen Konfiguration und Sie haben sie automatisch eine Eingabedatei, die die Ausgabe der vorherigen Phase ist.

Quelle

2012-07-15 03:12:55

Iterative MapReduce

Antwort

Verwandte Themen