2012-03-27 12 views
1

Ich arbeite derzeit an einem Webarchivierungsprojekt. Grundsätzlich versuchen wir, eine Sammlung von Websites zu archivieren (unter Verwendung von heritrix crawler) und Zugriff auf die archivierten Inhalte über eine Webschnittstelle bereitzustellen.Aktualisierung Solr aus Lucene Index

Wir bieten auch Volltextsuche in den Archiven. Derzeit wird der Index unter Verwendung von nutchwax (eine angepasste Version von Apache Nutch, zugeschnitten auf den Index .warc Dateien, wie von heritrix erzeugt) generiert. Nutchwax gibt einen Lucene-Index aus, und um ihn in Solr zu verwenden, muss lediglich ein korrektes Schema generiert werden.

Dies ist alles getan und es läuft wie es sollte, aber das Archiv ist nicht statisch und es gibt neue .warc Dateien in regelmäßigen Abständen generiert.

Was ich jetzt tun kann, ist, einen neuen Index zu generieren, ihn mit dem vorhandenen zu verschmelzen und ihn wieder in Solr zu importieren. Dazu muss Solr neu gestartet werden. Es wäre toll, wenn der Index "on the fly" aktualisiert werden könnte, wie dies normalerweise der Fall ist (beim Aktualisieren des Index über HTTP-Anfragen)

Hat jemand eine Idee, wie dies getan werden kann? Meine erste Aufnahme bestand darin, .xml Dateien aus der Lucene-Indexdatei zu generieren und sie an Solr zu senden. Ist das einen Versuch wert oder gibt es elegantere Lösungen?

Antwort

1

Sie könnten wahrscheinlich die Verwendung von mehreren Kernen nutzen, um das zu erreichen, was Sie brauchen. Weitere Informationen finden Sie unter Solr Wiki - CoreAdmin. Ich denke, dass Sie die MergeIndexes Fähigkeit oder die Fähigkeit zu Swap Kernen für eine bessere Erfahrung in Ihrem Szenario nutzen könnten.

+0

Vielen Dank für Ihre Antwort, das sieht sehr interessant aus !! – user871784

Verwandte Themen