Disclaimer: Ich bei Cloudera interniert in diesem Sommer (aber einige meiner besten Freunde sind bei Yahoo! :-))
Die Yahoo-Verteilung ist eine Version von Hadoop 20, dass sie laufen (RAN?) Auf eine Teilmenge ihrer Cluster. Es enthält eine Reihe von Patches für Stabilität, Fehlerkorrekturen usw. Es ist eine Quellversion; es hat keine Admin-freundlichen Funktionen wie RPM oder Debian-Pakete, etc.
Die Cloudera-Distribution ist Pakete als RPMs und Debs (die Quelle ist ebenfalls verfügbar). Das bedeutet, dass Sie Updates über Standardmethoden usw. erhalten können. Es enthält auch Stabilitäts- und Fehlerbehebungs-Patches. Es wird ständig gepflegt (um nicht zu sagen, Yahoo ist nicht - ich nehme an, man könnte einfach github gehen und überprüfen, wenn sie zuletzt aktualisiert). Es packt auch Schwein und Bienenstock.
Clouderas Verteilung von Hadoop 20 liegt in der Beta-Phase, und 18 gilt als stabil (mehr dazu auf der Cloudera blog). Die Version 18 enthält auch Pakete für Hive und Pig; Für 20 musst du sie selbst bauen (es gibt keine offiziellen Releases von Pig oder Hive, die noch 20 unterstützen, obwohl es Patches gibt). Es kann durchaus signifikante Überschneidungen zwischen den Cloudera und Yahoo Versionen von 20 geben; beide bieten Manifeste, so dass Sie überprüfen können. Die neueste Dokumentation von Clouderas Distributionen lautet: http://archive.cloudera.com
Yahoo bietet keine Unterstützung für ihre Verteilung; Sie stellen ihre gepatchte Version als Dienst für die Community bereit, damit die Leute, die daran interessiert sind, aufbauen können, was Yahoo intern ausführt. Angesichts der Größe von Yahoo-Clustern ist dies ein wichtiger Beitrag, insbesondere, wenn Sie kein Hadoop-Entwickler sind, der ständig den JIRAs folgt. Cloudera unterstützt ihre kommerzielle Verbreitung und bietet einige Community-Unterstützung über die Hadoop-Mailinglisten und, für Distro-spezifische Probleme, auf ihrer GetSatisfaction-Seite.
Beide sind ziemlich verschieden von der Vanille Apache Distribution, da sie es zwischen den Releases patchen (die Cloudera Version von 20 hat 60+ Patches!).
HortonWorks wurde aus Yahoo ausgegliedert und unterstützt jetzt Hadoop. –