2016-09-05 2 views
-2

Ich versuchte mit elastischen Suche - Anhang Mapper, aber ich hatte einige harte Zeit Indizierung mehrsprachige Dokumente vor allem in PDF, gibt es keine empfohlene Tool (bevorzugte Art der Datenbank), es statt zu tun elastische Suche? Ich brauche keine Fuzzy oder Volltextsuche, nur ein simples 'Like' wie mysql haben, wird das Beste sein.Beste Methode zum Indexieren und Suchen in Dokumenten

+0

Ihre Frage reicht nicht aus, um wirklich genug Reaponse zu geben, aber ich versuche, einige Informationen über die Situation zu geben. Vielleicht kannst du mehr Informationen geben. – hkulekci

Antwort

0

Elasticsearch ist Such- und Analysetechnologie. Ihr Problem ist das Extrahieren von Text aus PDF. Ich denke du mischst Äpfel und Orangen. Möchten Sie nach diesem PDF und ihrem Inhalt suchen? Erstens sollten Sie eine Pipeline erstellen, wie Sie es tun.

Zum Beispiel werde ich einen Index erstellen, um meine durchsuchbaren Daten zu speichern, und das sind meine Felder. Danach werde ich Metadaten und Rohtext aus PDFs mit (ich werde Text in eine Datei, eine DB-Tabelle, eine Speicher-DB, ...) und einige benutzerdefinierte Skript extrahieren. Dann werde ich diese Daten zu meinem Index mit der Kennung dieser PDF-Datei indexieren.

Dies ist ein kurzes Szenario für dieses Problem.

Auf der anderen Seite, wenn Sie keine großen Suchanfragen oder Volltext haben, benötigen Sie möglicherweise nicht Elasticsearch, aber Sie können Elasticsearch verwenden, die einfacher als die andere auch sein kann. Darüber hinaus können Sie die Aggregation für weitere Analysen verwenden und die Option duminity relevance verwenden, um relevantere Dokumente zu erreichen. Sie sind so Wundermittel zum Suchen.

Es gibt auch eine plugin für PPT, XLS, PDF, ... Dieses Plugin verwendet auch Apache Tika. In ES 5.x sollten Sie dieses Plug-In jedoch mit der API für den Einfügeknoten ändern. Diese Plugins werden als Ingest Processor in ES 5.x verfügbar sein.

+1

Hallo, elastische Suche hat "Anhang Mapper" Plugin, die ihm erlaubt, Dokumente zu indizieren, indem sie im Base64-Format speichern – user3625518

+0

Aber haw suchen Sie auf PDF-Datei Inhalt in dieser Situation? – hkulekci

+0

Sie nehmen ein PDF-Dokument, konvertieren es in base64, speichern es per Abfrage in elastic und können dann eine Suchabfrage in Dokumenten ausführen. – user3625518

Verwandte Themen