Ich habe einen Anwendungsfall für Lucene, in dem die erforderlichen Suchtypen sehr einfach sind. Ich werde wahrscheinlich die DOCS_ONLY-Indizierung ohne gespeicherte Felder oder komplizierte Add-Ons verwenden. Die Dokumente sind unstrukturierter englischer Text.Lucene für Komprimierungsverhältnis optimieren
Für diesen Anwendungsfall ist das wichtigste zu optimierende Element die Komprimierungsrate der Originaldokumente zur Größe des Index auf der Festplatte. Der Lucene-Index sollte so klein wie möglich sein, selbst auf Kosten einer erhöhten Such- und Aktualisierungslatenz.
Ich frage mich, wie ich Lucene (jede Version) konfigurieren sollte, um dies zu erreichen. Insbesondere welcher Codec sollte verwendet werden? Gibt es einen, der die Komprimierung über die Suchgeschwindigkeit betont? Gibt es noch andere Einstellungen, die ich optimieren kann, um die Komprimierung der Buchungsliste zu optimieren?
tl; dr: Für die Indexierung von DOCS_ONLY in Lucene, wie kann ich den Index so klein wie möglich machen?
Die genaue Größe ist zu diesem Zeitpunkt schwer zu sagen, aber in Bezug auf die Größe des Rohdokuments 100gb + liegt nicht außerhalb der Möglichkeiten. Updates und Löschungen werden nicht sehr oft vorkommen. – pg1989