2017-03-14 4 views
0

Ich verstehe, dass das Ausführen von Nutch im Bereitstellungsmodus ein verteiltes Crawlen basierend auf Hadoop ist, aber ich konnte nicht vollständig verstehen, was passiert, wenn wir es im lokalen Modus ausführen. Ist Nutch in diesem Fall unabhängig von Hadoop? Und basiert der Crawling-Prozess im lokalen Modus nicht auf MapReduce?Ist Nutch im lokalen Modus unabhängig von Hadoop?

Antwort

2

Nutch basiert auf MapReduce, unabhängig davon, wie es läuft. Die Hadoop-Bibliotheken sind Abhängigkeiten von Nutch. Im lokalen Modus setzt Nutch die Hadoop-verwandten Bibliotheken auf den Klassenpfad und führt sie alle in einer einzigen JVM aus. Im verteilten Modus wird der Befehl 'hadoop' aufgerufen.

Siehe Nutch script
PS: Wenn Sie Nutch auf einer einzigen Maschine zu verwenden, macht es Sinn, sie in Pseudo verteilten Modus zu laufen, so dass Sie die MapReduce UI bekommen das Crawling zu überwachen + Parallelität etc ...

+0

Ok . Im lokalen Modus verwendet Nutch nur den MapReduce-Mechanismus von Hadoop und sonst nichts. Habe ich recht? –

+0

"alles andere" -> HDFS? Es wird nicht standardmäßig verwendet. Sprechen wir über Nutch 1.x BTW? –

+0

Ja, ich arbeite mit 1.12. Wie verwende ich HDFS im Standalone-Modus? –

Verwandte Themen