Ist es möglich, das Crawling mit dem Java-Crawler crawler4j anzuhalten und fortzusetzen?

Ich weiß bereits, dass Sie das Crawlen als fortsetzbar konfigurieren können.Ist es möglich, das Crawling mit dem Java-Crawler crawler4j anzuhalten und fortzusetzen?

Ist es jedoch möglich, die fortsetzbare Funktionalität zu verwenden, um den Crawling-Prozess anzuhalten und später das Crawlen später programmgesteuert fortzusetzen? Z.B. Ich kann graziös shutdown Crawling mit Shutdown-Methode des Crawlers und mit wieder setzbaren Parameter auf true, dann starten Sie erneut Crawlen.

Wird es auf diese Weise funktionieren, da der primäre Zweck des wiederaufsetzbaren Parameters darin besteht, versehentliche Abstürze des Crawlers zu behandeln. Gibt es einen anderen oder besseren Weg, um diese Funktionalität mit crawler4j zu erreichen?

Quelle

2017-10-16 Milan Verescak

Wenn Sie den Parameter fortlaufend auf true setzen, speichern die Frontier sowie die DocIdServer ihre Warteschlangen im benutzerdefinierten Speicherordner.

Dies funktioniert entweder für einen Absturz oder für eine programmgesteuerte Abschaltung. In beiden Fällen muss der Speicherordner identisch sein.

Siehe auch the related issue auf dem offiziellen Issue Tracker

Quelle

2018-01-26 13:17:02 rzo

Ist es möglich, das Crawling mit dem Java-Crawler crawler4j anzuhalten und fortzusetzen?

Antwort

Verwandte Themen