Ich verwende HBase, um einen hohen Datenvolumenstrom zu deduplizieren. Ich dachte, es funktioniert gut mit einem eindeutigen Bezeichner aus jeder Nachricht im Stream als Zeilenschlüssel zu verwenden. Der Endbenutzer sieht jedoch immer noch doppelte Daten aus dem von mir erstellten Ausgabestream. Die einzige mögliche Ursache ist, dass doppelte Nachrichten gleichzeitig konsumiert werden.Deduplizierung gegen HBase mit hohen Volumendaten
Ich habe etwa 50 Threads verbrauchen die gleiche Warteschlange, die aus dem Stream von einem separaten Prozess gefüllt wird. Gibt es einen Weg, um sicherzustellen, dass dies nicht auftritt oder ein besserer Weg, um eine ordnungsgemäße Deduplizierung zu erreichen? Der Prozess beinhaltet ein GET vor dem Einfügen eines neuen Datensatzes.