0

Ich habe ein Problem, in dem ich eine Vielzahl von Dokumenten in verschiedenen Formaten wie PDF, MS Word, PPT, Klartext usw., die in HDFS gespeichert sind. Ich sollte den Inhalt in den ElasticSearch-Index extrahieren und ein Volltextsuchsystem für dasselbe erstellen. Ich habe über die ES-Hadoop gelesen. Aber ist etwas verwirrt, ob ich verwenden kann Mapper-Anhänge Plugin von IHM oder Apache Tika in diesem Fall und ob ES-Hadoop ist Echtzeit oder nicht (falls ich es verwenden).Best Practices für durchsuchbares Archiv mit Hadoop mit verschiedenen Dokumenten (pdf, ppt, MS Word, Klartext etc.)

Ich bin gespannt, was ist der richtige Weg, um den Inhalt von Dokumenten zu ES Indizes zu extrahieren und die gleichen zu suchen.

Jede Hilfe wäre willkommen.

Sachin

Antwort

1

In Bezug auf Ihre Frage, ob mit ES-Mapper Befestigung Plugin oder Apache Tika. Ich würde Ihnen empfehlen, das Mapper-Plugin zu verwenden, da es gut in Elasticsearch integriert ist und Ihnen eine Menge Overhead-Indexierung und das Hinzufügen von Metainformationen zu den Dokumenten, die Sie indexieren, erspart.

Soweit ich weiß, ES-Hadoop nicht streamen (Echtzeit) APIs. Ich arbeite mit ES-Hadoop und Apache Spark und musste mit Hilfe von Apache Kafka selbst Streaming-Daten für Elasticsearch implementieren.

Hoffe, dass hilft.

+0

Können wir einen HDFS-Speicherort (wo die doc-Datei gespeichert ist) als Quelle im Mapper-Anlagen-Plugin verwenden? Ich möchte die Datei nicht in ES speichern. Datei sollte in HDFS sein, nur textuelle Inhalte und Metadaten sollen in ES gespeichert werden. – Sachin

+0

Nicht dass ich eine solche Option kenne. Das Mapper-Attachment-Plugin DSL erfordert, dass Sie Ihre Dateien mit 64-Base codieren und dann die codierten Daten als Wert zu Ihrem Anlagenfeldtyp hinzufügen. Hier ist ein [Link] (https://github.com/elastic/elasticsearch-mapper-attachments) zum DSL. Sie können jedoch Ihre Metadaten in das Anhang-Plugin schreiben und später abfragen. –