Ich habe eine records:TypedType[(String, util.List[String])]
in meiner Verbrühung Job, wo der erste Wert ist eine ID und die zweite eine Liste von Sachen. die folgenden Stellen Sie sich vor:Generiere Diff von Liste [String] in Verbrühung
("1", ["a","b","c"])
("1", ["a","b","c"])
("1", ["a","b","c"])
("2", ["a","b"])
("2", ["a","b","c"])
("3", ["a","b","c"])
Nach records.groupBy(_._1)
ich nur die Datensätze ausgeben möchte, die für eine bestimmte ID voneinander unterscheiden. Für den Eingang über dem Ausgang sollte sein:
("2", ["a","b"])
("2", ["a","b","c"])
Ich bin neu in Scalding. Was ist ein eleganter Weg, dies zu erreichen?
yep, es muss auf einem Cluster laufen. Brühen ist grundlegend – Gevorg