Ich bin Speichern von Dokumenten in einer Lucene Beispiel die folgende Art und Weise:Warum Lucene Index ist so groß?
Document doc = new Document();
doc.add(new StringField("title", processor.title, Field.Store.YES));
doc.add(new StringField("annotation", processor.annotation, Field.Store.YES));
doc.add(new TextField("text", processor.text, Field.Store.NO));
w.addDocument(doc);
Ich brauche Volltext nicht in Index gespeichert werden, das einzige, was ich brauche, ist in der Lage sein, sucht auf Dokumente auszuführen.
Das Problem ist, dass ich einen Index bin immer fast die gleiche Größe wie die Größe des ursprünglichen Satzes von Dokumenten mit. Es erscheint mir ziemlich merkwürdig, da es nur Wortfrequenzen speichern sollte. Warum passiert es?
Könnten Sie einige Beispieldokumente hinzufügen, damit wir sehen können, wie viele Felder es im Originaldokument usw. gibt? Auch einige Zahlen wären nett: wie viele Dokumente, wie groß sind die Felder, wie groß sind die Dokumente und der Index? –
@DominikSandjaja Dokumente haben drei Felder, die Sie in der Frage sehen können. Die Größe des Textes, der nicht im Index gespeichert wird, ist ~ 100 K einfacher englischer Text. –
Können Sie bitte angeben, wie der IndexWriter und IndexWriterConfig erstellt wird? –