Apache Nutch Neustart Crawl

Ich betreibe Apache Nutch 1.12 im lokalen Modus.Apache Nutch Neustart Crawl

Ich musste die Seed-Datei bearbeiten, um eine Sub-Domäne zu entfernen und ein paar neue Domänen hinzufügen und den Crawl von Anfang an neu starten möchten.

Problem ist, wenn ich den Crawl neu starten die Crawl startet von wo ich es gestoppt, die in der Mitte der Sub-Domain ist, die ich entfernt.

Ich habe den Crawl gestoppt, indem ich den Java-Prozess (kill -9) beendet habe - ich habe versucht, eine .STOP-Datei im bin-Verzeichnis zu erstellen, aber das hat nicht funktioniert, also habe ich kill verwendet.

Jetzt, wenn ich den Crawl neu starte, kann ich von der Ausgabe sehen, es wird neu gestartet, wo der Job gestoppt wurde. Ich habe gegoogelt und habe den Hadoop-Job gestoppt, aber ich habe keine Hadoop-Dateien auf meinem Server - der einzige Hinweis auf hadoop sind JAR-Dateien im apache nutch-Verzeichnis.

Wie kann ich den Crawl von Anfang an neu starten und nicht von wo der Crawl zuletzt gestoppt wurde? Effektiv möchte ich einen frischen Crawling beginnen.

Vielen Dank

Quelle

2017-06-19 user12345

von Grund auf neu zu starten, nur ein anderes Crawl dir angeben oder die bestehende löschen.

Das Entfernen von Einträgen aus der Seed-Liste hat keine Auswirkungen auf den Inhalt der crawldb oder der Segmente. Was Sie tun könnten, um eine Domain ohne Neustart von Null zu entfernen, wäre ein Muster zu den URL-Filtern hinzuzufügen, so dass die URLs während des Aktualisierungsschritts aus dem Crawldb gelöscht oder zumindest nicht während des Generierungsschritts ausgewählt werden.

Quelle

2017-06-20 11:02:46

Danke - ich habe am Ende nur einen anderen Crawl angegeben. – user12345

Apache Nutch Neustart Crawl

Antwort

Verwandte Themen