2009-09-11 5 views

Antwort

14

Disclaimer: Ich bei Cloudera interniert in diesem Sommer (aber einige meiner besten Freunde sind bei Yahoo! :-))

Die Yahoo-Verteilung ist eine Version von Hadoop 20, dass sie laufen (RAN?) Auf eine Teilmenge ihrer Cluster. Es enthält eine Reihe von Patches für Stabilität, Fehlerkorrekturen usw. Es ist eine Quellversion; es hat keine Admin-freundlichen Funktionen wie RPM oder Debian-Pakete, etc.

Die Cloudera-Distribution ist Pakete als RPMs und Debs (die Quelle ist ebenfalls verfügbar). Das bedeutet, dass Sie Updates über Standardmethoden usw. erhalten können. Es enthält auch Stabilitäts- und Fehlerbehebungs-Patches. Es wird ständig gepflegt (um nicht zu sagen, Yahoo ist nicht - ich nehme an, man könnte einfach github gehen und überprüfen, wenn sie zuletzt aktualisiert). Es packt auch Schwein und Bienenstock.

Clouderas Verteilung von Hadoop 20 liegt in der Beta-Phase, und 18 gilt als stabil (mehr dazu auf der Cloudera blog). Die Version 18 enthält auch Pakete für Hive und Pig; Für 20 musst du sie selbst bauen (es gibt keine offiziellen Releases von Pig oder Hive, die noch 20 unterstützen, obwohl es Patches gibt). Es kann durchaus signifikante Überschneidungen zwischen den Cloudera und Yahoo Versionen von 20 geben; beide bieten Manifeste, so dass Sie überprüfen können. Die neueste Dokumentation von Clouderas Distributionen lautet: http://archive.cloudera.com

Yahoo bietet keine Unterstützung für ihre Verteilung; Sie stellen ihre gepatchte Version als Dienst für die Community bereit, damit die Leute, die daran interessiert sind, aufbauen können, was Yahoo intern ausführt. Angesichts der Größe von Yahoo-Clustern ist dies ein wichtiger Beitrag, insbesondere, wenn Sie kein Hadoop-Entwickler sind, der ständig den JIRAs folgt. Cloudera unterstützt ihre kommerzielle Verbreitung und bietet einige Community-Unterstützung über die Hadoop-Mailinglisten und, für Distro-spezifische Probleme, auf ihrer GetSatisfaction-Seite.

Beide sind ziemlich verschieden von der Vanille Apache Distribution, da sie es zwischen den Releases patchen (die Cloudera Version von 20 hat 60+ Patches!).

+0

HortonWorks wurde aus Yahoo ausgegliedert und unterstützt jetzt Hadoop. –

0

SquareCog ist in fast allen Punkten richtig, außer: Die Yahoo! Verteilung ist, was auf allen Produktionsclustern bei Yahoo! ausgeführt wird, nicht eine Untergruppe von ihnen. Das sind mehr als 25.000 Maschinen insgesamt. Die Yahoo! Der Vertrieb hat die umfangreichen End-to-End-Tests durchlaufen, die für einen zuverlässigen, konsistenten Betrieb erforderlich sind. Die andere Distribution ist liberaler beim Anwenden von Patches und kann daher mehr Funktionen haben, wurde aber nicht so umfassend getestet.

4

Yahoo hat die eigene Distribution eingestellt und sich auf Apache Hadoop konzentriert.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Vor kurzem Hortonworks (www.hortonworks.com) wurde aus Yahoo gesponnen. Und jetzt würde HortonWorks im Gegensatz zu Yahoo auch Unterstützung anbieten.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera ist auf der gleichen Linie wie Hortonworks

http://www.cloudera.com/products-services/

Der Hauptunterschied ist Hortonworks will, dass die Apache-Distributionen stabil, einfach zu installieren und andere machen. Währenddessen hat Cloudera seine eigene Distribution CDH * basierend auf dem Apache Hadoop.

1

Es gibt verschiedene Gründe für die Auswahl einer Hadoop-Distribution wie Cloudera, Hortonworks oder MapR anstelle von Apache Hadoop. Zwei große Vorteile sind die Unterstützung von Tools und die kommerzielle Unterstützung. Sie haben auch Probleme, alle Hadoop-Frameworks wie Pig, Hive usw. in richtigen und kompatiblen Versionen zu sammeln und zu integrieren.

Werfen Sie einen Blick auf meinen Artikel bei InfoQ. Es erklärt Unterschiede zwischen Apache Hadoop, Hadoop-Distributionen und große Daten-Suiten, und wenn zu verwenden, das eine:

http://www.infoq.com/articles/BigDataPlatform

Mit freundlichen Grüßen,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

Verwandte Themen