2010-07-22 4 views
5

Ich bin ein PHP-Entwickler. Lass uns das jetzt aus dem Weg schaffen. Aber Hadoop - und Mahoutinsbesondere - haben mein Interesse geweckt. Ich bin bereit, den Sprung nach Java zu machen, um sie zu benutzen.Wie viel Java braucht man, um effektiv Hadoop und Mahout zu verwenden?

Also von Menschen Erfahrung genug zu wissen, nur wie viel Java brauche ich in der Lage, diese effektiv zu verwenden? Von dem, was ich gesehen habe, braucht die Programmierung von Mappern/Reducern nicht viel. Aber mit Mahout bin ich mir überhaupt nicht sicher, was ich sehe, wenn ich mir die Dokumentation anschaue.

Auch, wie schwer wird es sein, Daten aus meiner PHP-Anwendung für die Verarbeitung in Java über Hadoop und Mahout zu nehmen? Ich kann mir nicht vorstellen, dass es so schwierig sein würde, aber ich bin nicht erfahren genug, um es zu sagen.

Antwort

7

Es sollte nicht so schwierig sein, Daten von PHP nach Java zu bekommen, um sie mit Mahout und Hadoop zu analysieren.

Noch einfacher ist es, Mahout und Hadoop offline in einem Batch-Modus zu verarbeiten und die Datenprodukte in einem Dateisystem oder einer Datenbank zu speichern. PHP kann diese Datenprodukte dann so einfach lesen, wie es aus einem Protokoll herausfällt.

Für die Verwendung in Echtzeit unterstützt der Empfehlungsteil von Mahout eine Vielzahl von Web-Service-Schnittstellen, die den Zugriff von PHP sehr einfach machen. Wenn man den Modellbewertungsteil von Mahout antrifft, würde man etwas mehr programmieren müssen.

+0

Ted, stört es Sie mich auf den Punkt in der Dokumentation verweisen, wo diese Web-Service-Schnittstellen erwähnt werden? Ich bin mir nicht sicher, ob ich das bisher selbst schon erlebt habe. In der Zwischenzeit, danke für Ihre Antwort! –

+0

Niemals. Ich glaube, ich habe es in der Taste Dokumentation gefunden. Für einen Neuling wie mich, würde es Ihnen etwas ausmachen, etwas zu erweitern, wie PHP integriert werden könnte, um mit Mahout in einer Echtzeitanwendung zu arbeiten? Ich würde es sehr schätzen. –

+0

Tut mir leid, langsam zu antworten ... aber PHP ist einfach über Web-Services-Aufrufe von PHP zu Mahouts Geschmackskomponenten zu integrieren. Eine andere Alternative wäre, mit Quercus PHP aus einer Java-Umgebung auszuführen und Apache-Mahout-Komponenten direkt aufzurufen. –

1

Anfänger-Level von Java ist ausreichend. Sie können immer tief auf Adhoc Basis zu graben.

1

Ich habe gerade das Gleiche gemacht, und es ist Jahre her, dass ich irgendetwas mit Java gemacht habe. Was ich tat, war die folgende:

  1. mit einfachen Hadoop Streaming Beispiele Begann
  2. meine eigene Analyse Versuchen mit PHP Streaming
  3. Schritte mit Schwein experimentieren
  4. experimentieren mit der Verwendung von PHP-Streaming innerhalb Pig

Alles ohne Java!

0

Für Echtzeit-Empfehlungen können Sie auch eine Instanz von Mahout in einer Java-Servlet-Klasse instantiieren und dann den Export als Krieg für einen Tomcat-Server bereitstellen.

Verwandte Themen