2017-06-26 6 views
0

Ich indexieren gemischtsprachige pdf-dokumente zu solr, dh ein einzelnes dokument besteht aus verschiedenen sprachen, hauptsächlich englisch teile und französisch teile. Ich möchte jeden Teil abhängig von der Sprache in ein bestimmtes Feld streamen.gemischte sprache indizierung in solr

So lässt, sagen: "Hallo, mein Name nicolas ist. Je voudrais extraire du texte avec solr" in zwei Felder indiziert werden würde, Field_en "Hallo, mein Name ist nicolas" und Field_fr „Je voudrais extraire du texte avec SOLR ".

Momentan kann ich das nur auf Dokumentebene (mit dem LangDetect-Prozessor von solr), aber es hilft nicht bei gemischten Dokumenten.

Wenn es zu schwierig ist, möchte ich zumindest eine Sprache während der Indexierung selektiv entfernen und eine einzige Sprache in einem Feld abrufen können.

Antwort

0

Soweit ich weiß, gibt es keine integrierte Unterstützung in Solr, um zu tun, was Sie wollen, so mein Vorschlag wäre, die Handler-Unterstützung nur zum Extrahieren des Inhalts zu verwenden (und nicht indizieren) durch Anhängen extractOnly an die anfordern. Dadurch erhalten Sie den Inhalt des Dokuments zurück.

Sie können dann den Inhalt analysieren und jeden Satz durch einen Klassifizierer für Sprache ausführen - oder wenn Sie ihn in Solr behalten möchten - ein Dokument für jeden Satz haben. Abhängig von der Anzahl der Dokumente und dem, was Sie abfragen werden, ist dies jedoch nicht möglich.

+0

Ich habe ca. 300 PDF-Dokument mit 10 Seiten. Ein Dokument für jeden Satz könnte eine Option sein, vorausgesetzt, ich kann dann das ganze Dokument neu erstellen, was für mich ein wenig knifflig ist. – Barth

+0

Sie können einen separaten Kern mit dem vollständigen Dokument haben und es abrufen, nachdem eine Übereinstimmung in einem Satz gefunden wurde (der einen Verweis auf die Dokument-ID hat). Suche und Abruf müssen nicht gegen dieselbe Sammlung/Struktur gerichtet sein. Sie können auch die erste Sammlung verwenden, um IDs zum Ausführen von Facettierungen oder anderen Operationen mit diesen IDs in der zweiten Sammlung zu erhalten. Angesichts der Anzahl der Dokumente eine Lösung mit einem Dokument pr. Satz (pr. die kleinste Einheit, die Sprache wirklich ändern kann) könnte funktionieren. – MatsLindh

+0

ok, ich werde diesen Vorschlag berücksichtigen. Im Moment entschied ich mich, die Reinigung mit einem anderen Tool (R) als "Patch-Lösung" zu starten. Vielen Dank ! – Barth

Verwandte Themen