Looping über alle Dokumente in einem ElasticSearch-Index

Mit dem ElasticSearch-Javascript-Client (node.js), was ist die beste (oder einfachste) Möglichkeit, jedes Dokument in einem Index (ca. 100 000 Dokumente) zu durchlaufen?Looping über alle Dokumente in einem ElasticSearch-Index

Quelle

2014-05-24 user1612947

Ich denke, ein guter Ort, um mit Scan-Abfragen ist die Scroll-api verwenden:

http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/scan-scroll.html

Im Grunde ist es ähnlich wie bei einem Cursor mit einer Datenbank - Öffnen Sie die Abfrage mit Zeitlimit und es gibt eine Scroll-ID Sie verwenden dann diese Bildlauf-ID, um den ersten Stapel von Ergebnissen abzurufen, und die Dokumente werden zusammen mit einer neuen Bildlauf-ID zurückgegeben. Beispiele unten:

curl -XGET 'localhost:9200/_search?search_type=scan&scroll=10m&size=1000' -d ' 
{ 
    "query" : { 
     "match_all" : {} 
    } 
} 
'

Dies wird eine _scroll_id zurück, die Sie dann Dokumente verwenden abzurufen:

curl -XGET 'localhost:9200/_search/scroll?scroll=10m' -d '<_SCROLL_ID_HERE>'

Beachten Sie, dass diese 1000 Dokumente pro primärem SHARD zurück - wenn Sie also vier primäre Shards haben wird es Gebe 4000 Dokumente zurück. Jeder Aufruf gibt zusätzlich zu den Dokumenten eine neue _scroll_id zurück, die Sie dann für den nächsten Aufruf verwenden. Der "scroll = 10m" legt ein Zeitlimit von 10m fest, um den Bildlauf zwischen den Anrufen offen zu halten.

Quelle

2014-05-24 18:34:54

Looping über alle Dokumente in einem ElasticSearch-Index

Antwort

Verwandte Themen