In einem Schleichen Zyklus erhalten, haben wir viele Aufgaben/Phasen wie inject, erzeugen, holen, analysieren, updatedb, invertlinks, dedup und einen Index Job. Jetzt würde ich gerne wissen, gibt es irgendwelche Methoden, um Status einer Crawl-Task (ob es läuft oder nicht bestanden) mit anderen Mitteln als Bezug auf hadoop.log Datei zu erhalten? Um genauer zu sein, würde ich gerne wissen, ob ich den Status einer generate/fetch/parse Phase verfolgen kann? Jede Hilfe wäre willkommen.Wie Jobstatus von Crawl Aufgaben in nutch
2
A
Antwort
3
Sie sollten Nutch mit Hadoop immer im Pseudo- oder vollständig verteilten Modus ausführen. Auf diese Weise können Sie die Hadoop-Benutzeroberfläche verwenden, um den Fortschritt Ihrer Crawls zu verfolgen, die Protokolle für jeden Schritt anzuzeigen und auf die Zähler zuzugreifen sinnvoll!).
Verwandte Themen
- 1. Apache Nutch Neustart Crawl
- 2. Empty Nutch crawl list
- 3. Nutch Crawl funktioniert nicht
- 4. Nutch Crawl - Löschen von Segmenten bei jedem Crawl Implikationen
- 5. Wie Nutch Crawl-Dateisystem zu machen?
- 6. Dump Daten von einem Nutch Crawl in mehrere Warc-Dateien
- 7. Wie oder wo $ ./nutch laufen Crawl/Crawldb URLs
- 8. Wie definiere ich die Coverage meines Nutch Crawl?
- 9. Benutzerdefinierte Optionen in Nutch Crawl-Skript funktioniert nicht
- 10. Elasticsearch-Indizierung schlägt nach erfolgreicher Nutch-Crawl fehl
- 11. Wie bekomme ich Webgraph in Apache Nutch?
- 12. Nutch Multithreading
- 13. Nutch in Windows: Fehler Berechtigungen Pfad setzen
- 14. Apache Nutch - Probleme mit Pfaden
- 15. Apache Nutch 2.3.1 Fehler beim Abrufen
- 16. Crawling eine bestimmte Tiefe pro Seite in Nutch
- 17. Nutch crawlt nicht alle Links in Formular
- 18. ist es möglich, Nutch Fetcher Klasse anzupassen?
- 19. Wie finde ich heraus, wie viele Webseiten Nutch gekrochen hat?
- 20. Solr Indizierung nach einem Nutch-Crawl schlägt fehl, meldet "Indexer: java.io.IOException: Job fehlgeschlagen!"
- 21. Nutch 1.13 index-links Konfiguration
- 22. Integration von Apache Nutch 1.12 und Solr 5.4.1 fehlgeschlagen
- 23. crawl Daten von "angular.callbacks" Web
- 24. Problem beim Indizieren von Elasticsearch von Apache Nutch
- 25. # # Links von Scrapy crawl löschen
- 26. mit Nutch Crawling ... Zeigt eine IOException
- 27. Gibt es eine Möglichkeit, die Aufgabe "Nutch Crawl" fortzusetzen, die unerwartet beendet wurde?
- 28. Crawl Website-Inhalt von Python
- 29. Zendesk - CreateUser JobStatus Ergebnisse sind Null
- 30. Nutch Suche liefert immer 0 Ergebnisse
Kann ich einen Nutch-Server im vollständig verteilten Modus (über Hadoop) starten und nutch REST api für dasselbe verwenden? – Sachin
Weiß nicht, ich habe nie die REST API verwendet. Wenn nicht, dann ist das eine ernsthafte Einschränkung, Nutch kann im lokalen Modus laufen, aber es scheint wirklich, wenn verteilt –
Ich suchte im Internet und fand nichts hilfreiches. Ich möchte nutch als einen Dienst im verteilten Modus verfügbar machen. – Sachin