2016-09-21 1 views
0

Ich arbeite an einem Projekt, das Millionen von Daten pro Tag speichern wird. Also möchte ich es in komprimierter Struktur (nur durchsuchbares Feld und Entfernen unerwünschter Felder) zur elastischen Suche nach sofortiger Textsuche speichern. Aber ich möchte, dass die unkomprimierten Daten für spätere Prozesse und Analysen gespeichert werden. Es sollte mehr Schreibgeschwindigkeit haben und billiger sein, um Milliarden von Daten zu speichern.Wie speichern Sie Big Data am besten und erstellen Sie eine Sofortsuche mit ES?

Antwort

0

Mit Elasticsearch können Sie per Index festlegen, wo Sie sie speichern möchten (über shard allocation) und welche Komprimierung Sie verwenden möchten (über index codec).

So mit unbegrenzten Ressourcen und Zeit, könnten Sie einen Prozess, wo Sie Dokumente in tägliche Indizes indexieren, zum Beispiel in einem 5-Knoten-Cluster, wo Sie die letzten 7 Tage auf 3 der Server (nennen wir diese die schnellen Server)) und alles, was älter ist, wird auf den 2 langsameren Servern gespeichert, so dass Anfragen in den letzten 7 Tagen schneller ausgeführt werden, während Jobs, die nicht zeitabhängig sind, auf den älteren Indizes laufen können, die auf den langsameren Servern gespeichert sind.

Die schnellen Server könnten mehr Rechenleistung und schnellere SSD-Festplatten haben, während die langsameren Server über normale Festplatten verfügen. Bei der Komprimierung arbeitet die Elasticsearch-Komprimierung mit den _source-Daten. Daher sollte die Komprimierung die Aggregationsgeschwindigkeit nicht beeinflussen. Wichtig ist auch, dass die Indexkomprimierung nur für neue/aktualisierte Dokumente gilt und nicht rückwirkend ausgeführt wird Dokumente, die Sie in der Vergangenheit indiziert haben.

+0

Aber Sie sagen immer noch nicht über die primäre Speicherung von Inhalten. Ich verwende elastische Suche nur zum Suchen des Textes. daher werde ich den einzigen durchsuchbaren Inhalt hinzufügen, der Hauptinhalt muss irgendwo gespeichert werden und es sollte nicht viel kosten. Aber es sollte für weitere Prozesse und Analysen abrufbar sein. – Tamizharasan

Verwandte Themen