2013-09-06 5 views
5

ich feststellen, dass die Cascalog Leitfaden zur Inbetriebnahme gibt eine Version von HadoopCascalog Hadoop-Version unterstützt

:profiles { :dev {:dependencies [[org.apache.hadoop/hadoop-core "1.0.3"]]}} 

Wenn meine Gruppe eine andere Version von Hadoop verwendet dann bin ich kein Glück? Umfassender mit welchen Hadoop-Versionen arbeitet Cascalog zusammen?

+1

Die Kaskadierungskompatibilitätsmatrix ist hier: http://www.cascading.org/support/compatibility/. Andere Distributionen funktionieren möglicherweise, werden aber nicht offiziell unterstützt. – Alex

+1

@Alex das ist ein schönes Diagramm. Passen Cascaloge und Cascading genau zusammen? – MRocklin

Antwort

0

Die einfache Antwort ist derzeit (Stand: 10.08.2014) Cascalog ist Version 2.1.1 und verwendet standardmäßig Cascading 2.5.3 und Hadoop 1.2.1, also ja, wenn Ihr Team nicht Hadoop Version 1 verwendet. Dann hast du kein Glück.

Cascalog konnte jedoch auf Hadoop 2.x portiert werden. Cascading 2.5.x hat Unterstützung für Hadoop 2, in den Dokumenten Hadoop 1 vs Hadoop 2:

Kaskadierung 2.5 unterstützt sowohl Hadoop 1.x und 2.x durch zwei Java-Abhängigkeiten Bereitstellung Kaskadierung-hadoop.jar und Kaskadierung-hadoop2 -mr1.jar. Diese Abhängigkeiten können vertauscht werden, aber die hadoop2-mr1.jar führt neue ein und lehnt ältere API-Aufrufe gegebenenfalls ab. Es sollte darauf hingewiesen werden, dass hadoop1-mr1.jar nur MapReduce 1-API-Konventionen unterstützt. Mit diesem Namensschema können neue API-Konventionen eingeführt werden, ohne das Risiko, Kollisionen bei Abhängigkeiten zu benennen.

Das Folgende sind ein naiven Leitfaden für die Aktualisierung Cascalog zu Hadoop 2.x:

  • Aktualisieren des Cascading-hadoop jar im project file
  • aktualisieren hadoop Version in HADOOP-VERSION Konfigurationsdatei
  • finden Alle Verwendungen der veralteten Cascading API und Aktualisierung auf neue Konventionen.
  • Compile und beheben Warnungen/Fehler
  • wiederholen

Ich bin kein Experte in der Cascalog Quelle, aber Anwendungen von API Kaskadierung können mit ein paar Zeilen von grep und Verbesserung der API scheint ziemlich einfach zu finden vorwärts, wenn ein bisschen langweilig.

+0

es war fast ein Jahr, weiß jemand, ob sich hier etwas geändert hat? Es scheint, dass Leute Cascalog mit den späteren Versionen der Kaskadierung laufen lassen müssen, aber ich kann keine Dokumente/Artikel finden, die das vorschlagen. – joefromct

+0

Soweit ich weiß, hat sich an dieser Front nichts geändert. Ein Blick auf das 3.0.0-Changelog https://github.com/nathanmarz/cascalog/blob/develop/CHANGELOG.md zeigt keine Pläne für Kaskaden- oder Hadoop-Versionen –