2014-02-26 8 views
8

ich Millionen von kleinen Block Dokumenten wöchentlich loggin zu tun:Elasticsearch vs hbase/Hadoop für Echtzeit-Statistiken

  • Ad-hoc-Abfragen für Data-Mining-
  • Beitritt zu vergleichen, Filtern und Berechnen von Werten
  • viel viel Volltextsuche mit python
  • ausführen, um diese Operationen mit allen Millionen von Dokumenten, einige Male täglich

Mein erster Gedanke war, dass alle Dokumente in HBase/HDFS abgelegt wurden und Hadoop-Jobs ausgeführt wurden, die Statistikergebnisse erzeugten.

Das Problem ist: einige der Ergebnisse müssen in der Nähe von Echtzeit sein.

Also, nach ein paar Recherchen entdeckte ich ElasticSearch und jetzt denke ich über die Übertragung aller Millionen von Dokumenten und verwenden Sie DSL-Abfragen, um Statistiken Ergebnisse zu generieren.

Ist das eine gute Idee? ElasticSearch scheint mit Millionen/Milliarden von Dokumenten so einfach zu handhaben zu sein.

Antwort

Verwandte Themen