Ich betreibe Apache Nutch 1.12 im lokalen Modus.Apache Nutch Neustart Crawl
Ich musste die Seed-Datei bearbeiten, um eine Sub-Domäne zu entfernen und ein paar neue Domänen hinzufügen und den Crawl von Anfang an neu starten möchten.
Problem ist, wenn ich den Crawl neu starten die Crawl startet von wo ich es gestoppt, die in der Mitte der Sub-Domain ist, die ich entfernt.
Ich habe den Crawl gestoppt, indem ich den Java-Prozess (kill -9) beendet habe - ich habe versucht, eine .STOP-Datei im bin-Verzeichnis zu erstellen, aber das hat nicht funktioniert, also habe ich kill verwendet.
Jetzt, wenn ich den Crawl neu starte, kann ich von der Ausgabe sehen, es wird neu gestartet, wo der Job gestoppt wurde. Ich habe gegoogelt und habe den Hadoop-Job gestoppt, aber ich habe keine Hadoop-Dateien auf meinem Server - der einzige Hinweis auf hadoop sind JAR-Dateien im apache nutch-Verzeichnis.
Wie kann ich den Crawl von Anfang an neu starten und nicht von wo der Crawl zuletzt gestoppt wurde? Effektiv möchte ich einen frischen Crawling beginnen.
Vielen Dank
Danke - ich habe am Ende nur einen anderen Crawl angegeben. – user12345