2017-03-15 1 views
0

Ich habe folgendes Szenario:Sagen StormCrawler Seiten von ES-Index zu löschen, nachdem sie auf dem Server gelöscht wurde

  • eine bestehende Seite von StormCrawler gekrochen wird
  • StormCrawler fügt ein entsprechendes Dokument an eine Elasticsearch Index
  • die Seite wird auf dem Server gelöscht

=> der Crawler "erkennt" die Entfernung der Seite durch den Status-Index zu aktualisieren: Das Dokument wird Status „FETCH_ FEHLER "(und nach Erreichen des" max.fetch.errors "der Status" ERROR ").

Problem: Der Elasticsearch-Index behält immer noch das Dokument, aber da die Seite gelöscht wurde, macht das keinen Sinn.

Mit Blick auf die Konfiguration habe ich keine Möglichkeit gefunden, StormCrawler zu befehlen, Dokumente aus dem ES-Index zu entfernen, die den Status "ERROR" haben (z. B. wurden gelöscht). Gibt es eine Möglichkeit, dies mit StormCrawler zu erreichen, oder gibt es einen Grund, warum dies nicht möglich ist?

Vielen Dank für Ihre Hilfe!

Antwort

0

Wir planen, einen GONE-Status hinzuzufügen, aber dieser ist noch nicht implementiert, siehe #253. In der Zwischenzeit konnten wir den ERROR-Status löschen (selbst wenn die meisten von ihnen nicht zu ES hinzugefügt worden wären), die Schwierigkeit besteht darin, dass die Indizierung auf dem Standard-Stream erfolgt, dh Dokumente, die abgerufen und analysiert wurden, während die Statusinformationen gesendet werden zum Status Strom durch die verschiedenen Schrauben. Wir könnten eine spezielle Schraube für Löschungen haben - es würde nur die URL und nichts anderes brauchen: um es zu verwenden, könnten wir AbstractStatusUpdaterBolt so ändern, dass es die zu löschenden URLs in einem speziellen Stream, z.B. "Löschen" und verbinden Sie unseren ES-Löschloch mit dem Gerät. Macht das Sinn? Bitte zögern Sie nicht, zur Diskussion über den obigen Link beizutragen. Vielen Dank!

+0

FYI haben eine neue PR geöffnet, die dies für Elasticsearch implementiert -> https://github.com/DigitalPebble/storm-crawler/pull/454 Kommentare und Bewertungen willkommen wie immer –

Verwandte Themen