Ich habe folgendes Szenario:Sagen StormCrawler Seiten von ES-Index zu löschen, nachdem sie auf dem Server gelöscht wurde
- eine bestehende Seite von StormCrawler gekrochen wird
- StormCrawler fügt ein entsprechendes Dokument an eine Elasticsearch Index
- die Seite wird auf dem Server gelöscht
=> der Crawler "erkennt" die Entfernung der Seite durch den Status-Index zu aktualisieren: Das Dokument wird Status „FETCH_ FEHLER "(und nach Erreichen des" max.fetch.errors "der Status" ERROR ").
Problem: Der Elasticsearch-Index behält immer noch das Dokument, aber da die Seite gelöscht wurde, macht das keinen Sinn.
Mit Blick auf die Konfiguration habe ich keine Möglichkeit gefunden, StormCrawler zu befehlen, Dokumente aus dem ES-Index zu entfernen, die den Status "ERROR" haben (z. B. wurden gelöscht). Gibt es eine Möglichkeit, dies mit StormCrawler zu erreichen, oder gibt es einen Grund, warum dies nicht möglich ist?
Vielen Dank für Ihre Hilfe!
FYI haben eine neue PR geöffnet, die dies für Elasticsearch implementiert -> https://github.com/DigitalPebble/storm-crawler/pull/454 Kommentare und Bewertungen willkommen wie immer –