Ich indexieren gemischtsprachige pdf-dokumente zu solr, dh ein einzelnes dokument besteht aus verschiedenen sprachen, hauptsächlich englisch teile und französisch teile. Ich möchte jeden Teil abhängig von der Sprache in ein bestimmtes Feld streamen.gemischte sprache indizierung in solr
So lässt, sagen: "Hallo, mein Name nicolas ist. Je voudrais extraire du texte avec solr" in zwei Felder indiziert werden würde, Field_en "Hallo, mein Name ist nicolas" und Field_fr „Je voudrais extraire du texte avec SOLR ".
Momentan kann ich das nur auf Dokumentebene (mit dem LangDetect-Prozessor von solr), aber es hilft nicht bei gemischten Dokumenten.
Wenn es zu schwierig ist, möchte ich zumindest eine Sprache während der Indexierung selektiv entfernen und eine einzige Sprache in einem Feld abrufen können.
Ich habe ca. 300 PDF-Dokument mit 10 Seiten. Ein Dokument für jeden Satz könnte eine Option sein, vorausgesetzt, ich kann dann das ganze Dokument neu erstellen, was für mich ein wenig knifflig ist. – Barth
Sie können einen separaten Kern mit dem vollständigen Dokument haben und es abrufen, nachdem eine Übereinstimmung in einem Satz gefunden wurde (der einen Verweis auf die Dokument-ID hat). Suche und Abruf müssen nicht gegen dieselbe Sammlung/Struktur gerichtet sein. Sie können auch die erste Sammlung verwenden, um IDs zum Ausführen von Facettierungen oder anderen Operationen mit diesen IDs in der zweiten Sammlung zu erhalten. Angesichts der Anzahl der Dokumente eine Lösung mit einem Dokument pr. Satz (pr. die kleinste Einheit, die Sprache wirklich ändern kann) könnte funktionieren. – MatsLindh
ok, ich werde diesen Vorschlag berücksichtigen. Im Moment entschied ich mich, die Reinigung mit einem anderen Tool (R) als "Patch-Lösung" zu starten. Vielen Dank ! – Barth