2016-09-28 5 views
2

In einem Schleichen Zyklus erhalten, haben wir viele Aufgaben/Phasen wie inject, erzeugen, holen, analysieren, updatedb, invertlinks, dedup und einen Index Job. Jetzt würde ich gerne wissen, gibt es irgendwelche Methoden, um Status einer Crawl-Task (ob es läuft oder nicht bestanden) mit anderen Mitteln als Bezug auf hadoop.log Datei zu erhalten? Um genauer zu sein, würde ich gerne wissen, ob ich den Status einer generate/fetch/parse Phase verfolgen kann? Jede Hilfe wäre willkommen.Wie Jobstatus von Crawl Aufgaben in nutch

Antwort

3

Sie sollten Nutch mit Hadoop immer im Pseudo- oder vollständig verteilten Modus ausführen. Auf diese Weise können Sie die Hadoop-Benutzeroberfläche verwenden, um den Fortschritt Ihrer Crawls zu verfolgen, die Protokolle für jeden Schritt anzuzeigen und auf die Zähler zuzugreifen sinnvoll!).

+0

Kann ich einen Nutch-Server im vollständig verteilten Modus (über Hadoop) starten und nutch REST api für dasselbe verwenden? – Sachin

+0

Weiß nicht, ich habe nie die REST API verwendet. Wenn nicht, dann ist das eine ernsthafte Einschränkung, Nutch kann im lokalen Modus laufen, aber es scheint wirklich, wenn verteilt –

+0

Ich suchte im Internet und fand nichts hilfreiches. Ich möchte nutch als einen Dienst im verteilten Modus verfügbar machen. – Sachin

Verwandte Themen