Ich arbeite derzeit an einem Webarchivierungsprojekt. Grundsätzlich versuchen wir, eine Sammlung von Websites zu archivieren (unter Verwendung von heritrix crawler) und Zugriff auf die archivierten Inhalte über eine Webschnittstelle bereitzustellen.Aktualisierung Solr aus Lucene Index
Wir bieten auch Volltextsuche in den Archiven. Derzeit wird der Index unter Verwendung von nutchwax (eine angepasste Version von Apache Nutch, zugeschnitten auf den Index .warc
Dateien, wie von heritrix erzeugt) generiert. Nutchwax gibt einen Lucene-Index aus, und um ihn in Solr zu verwenden, muss lediglich ein korrektes Schema generiert werden.
Dies ist alles getan und es läuft wie es sollte, aber das Archiv ist nicht statisch und es gibt neue .warc
Dateien in regelmäßigen Abständen generiert.
Was ich jetzt tun kann, ist, einen neuen Index zu generieren, ihn mit dem vorhandenen zu verschmelzen und ihn wieder in Solr zu importieren. Dazu muss Solr neu gestartet werden. Es wäre toll, wenn der Index "on the fly" aktualisiert werden könnte, wie dies normalerweise der Fall ist (beim Aktualisieren des Index über HTTP-Anfragen)
Hat jemand eine Idee, wie dies getan werden kann? Meine erste Aufnahme bestand darin, .xml
Dateien aus der Lucene-Indexdatei zu generieren und sie an Solr zu senden. Ist das einen Versuch wert oder gibt es elegantere Lösungen?
Vielen Dank für Ihre Antwort, das sieht sehr interessant aus !! – user871784