Ich versuchte mit elastischen Suche - Anhang Mapper, aber ich hatte einige harte Zeit Indizierung mehrsprachige Dokumente vor allem in PDF, gibt es keine empfohlene Tool (bevorzugte Art der Datenbank), es statt zu tun elastische Suche? Ich brauche keine Fuzzy oder Volltextsuche, nur ein simples 'Like' wie mysql haben, wird das Beste sein.Beste Methode zum Indexieren und Suchen in Dokumenten
Antwort
Elasticsearch ist Such- und Analysetechnologie. Ihr Problem ist das Extrahieren von Text aus PDF. Ich denke du mischst Äpfel und Orangen. Möchten Sie nach diesem PDF und ihrem Inhalt suchen? Erstens sollten Sie eine Pipeline erstellen, wie Sie es tun.
Zum Beispiel werde ich einen Index erstellen, um meine durchsuchbaren Daten zu speichern, und das sind meine Felder. Danach werde ich Metadaten und Rohtext aus PDFs mit (ich werde Text in eine Datei, eine DB-Tabelle, eine Speicher-DB, ...) und einige benutzerdefinierte Skript extrahieren. Dann werde ich diese Daten zu meinem Index mit der Kennung dieser PDF-Datei indexieren.
Dies ist ein kurzes Szenario für dieses Problem.
Auf der anderen Seite, wenn Sie keine großen Suchanfragen oder Volltext haben, benötigen Sie möglicherweise nicht Elasticsearch, aber Sie können Elasticsearch verwenden, die einfacher als die andere auch sein kann. Darüber hinaus können Sie die Aggregation für weitere Analysen verwenden und die Option duminity relevance verwenden, um relevantere Dokumente zu erreichen. Sie sind so Wundermittel zum Suchen.
Es gibt auch eine plugin für PPT, XLS, PDF, ... Dieses Plugin verwendet auch Apache Tika. In ES 5.x sollten Sie dieses Plug-In jedoch mit der API für den Einfügeknoten ändern. Diese Plugins werden als Ingest Processor in ES 5.x verfügbar sein.
Hallo, elastische Suche hat "Anhang Mapper" Plugin, die ihm erlaubt, Dokumente zu indizieren, indem sie im Base64-Format speichern – user3625518
Aber haw suchen Sie auf PDF-Datei Inhalt in dieser Situation? – hkulekci
Sie nehmen ein PDF-Dokument, konvertieren es in base64, speichern es per Abfrage in elastic und können dann eine Suchabfrage in Dokumenten ausführen. – user3625518
- 1. Wie indexieren und suchen .doc-Dateien
- 2. Wie Subversion-Repository indexieren und suchen
- 3. Indexieren und suchen verwandte Objekte mit Heuhaufen
- 4. Indexieren von Word-Dokumenten und PDFs mit Sphinx
- 5. Die beste Methode zum Indexieren von JSON-Objekten in der elastischen Suche
- 6. Suchen oder Indexieren von XML-Dateien
- 7. Bevorzugte Methode zum Indexieren von Massendaten in ElasticSearch?
- 8. VBA-Code zum Gruppieren und Indexieren
- 9. Die beste Methode zum Lesen, Ändern und Schreiben von XML
- 10. Suchen in komplexen Dokumenten in Mongo db
- 11. Die beste Methode zum Floaten?
- 12. Methode zum Analysieren von HTML-Dokumenten in Ruby?
- 13. Korrekte HTTP-Methode zum Umgang mit Dokumenten in MongoDB
- 14. Suchen und Ersetzen von Strings in Dokumenten effizient
- 15. Beste Methode zum Abrufen von Daten in XPages und Java
- 16. Beste Methode zum Sammeln und Importieren von Daten in drupal?
- 17. Beste Methode zum Löschen aller Knoten und Beziehungen in Cypher
- 18. Zeichenfolge Suchen und Ersetzen Methode
- 19. Was ist die beste Strategie zum Erstellen, Anzeigen und Drucken von PDF-Dokumenten in android
- 20. Die beste Möglichkeit zum Speichern und Suchen von Stichwörtern für einen Datensatz in PHP und MySQL?
- 21. Die beste Methode zum Planen von Aufgaben in C#
- 22. Beste Methode zum Drucken. NET-Quellcode
- 23. Die beste Methode zum Speichern globaler Variablen
- 24. Die beste Methode zum Aktualisieren von Interaction.Behaviors
- 25. Die beste Methode zum Strukturieren des Bereitstellungsskripts?
- 26. beste Methode zum Zeichnen einer Bezier-Linie
- 27. Die beste Methode zum Validieren von WCF- und WebService-Methodenparameterwerten
- 28. Die beste Methode zum Speichern von Eingabewerten
- 29. Die beste Methode zum Definieren von True, False und Unset
- 30. Die beste Methode zum Speichern von Dateien
Ihre Frage reicht nicht aus, um wirklich genug Reaponse zu geben, aber ich versuche, einige Informationen über die Situation zu geben. Vielleicht kannst du mehr Informationen geben. – hkulekci