Ich muss eine Volltext-basierte Suche in einem PDF-Dokument mit Elasticsearch
Ingest Plugin implementieren. Ich bekomme ein leeres Treffer-Array, wenn ich versuche, das Wort someword
im PDF-Dokument zu suchen.Wie indiziert man eine PDF-Datei mit Elasticsearch ingest-attachment plugin?
//Code for creating pipeline
PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data",
"indexed_chars" : -1
}
}
]
}
//Code for creating the index
PUT my_index/my_type/my_id?pipeline=attachment
{
"filename" : "C:\\Users\\myname\\Desktop\\bh1.pdf",
"title" : "Quick",
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
//Code for searching the word in pdf
GET /my_index/my_type/_search
{
"query": {
"match": {
"data" : {
"query" : "someword"
}
}
}
Senden Wenn Sie das PDF in einem PDF-Viewer öffnen, können Sie für „someword“ in ihm suchen und ein Spiel zu finden? – Alcanzar
@Alcanzar Ja, es sucht nach dem Wort. – Ashley
Dies sieht aus wie ein Duplikat von http://stackoverflow.com/questions/37861279/how-to-index-a-pdf-file-in-elasticsearch-5-0-0-with-ingest-attachment-plugin- Beachten Sie, dass Ihre PUT-Anweisung spezifische "Daten" für die Datei angibt. Sie müssen curl oder etwas ähnliches verwenden, um die spezifischen Dateidaten zu übergeben. Die "Daten", die du eingibst, sind "Lorem ipsum dolor sit amet" - wenn du nach Lorem suchst, würdest du ein Ergebnis finden – Alcanzar