Ich bin ein Anfänger in Scala Spark und ich habe ein Problem.spark: Karte durch eindeutigen Wert reduzieren
Ich habe eine Karte wie diese (mit Millionen von Zeilen):
Map("date_create1" -> "user_id1", "date_create1" -> "user_id2", "date_create1" -> "user_id1", "date_create2" -> "user_id1")
Ich mag würde zählen, wie viele verschiedene Benutzer ich für jedes Datum haben.
So:
Map("date_create1" -> 2, "date_create2" -> 1)
Wie kann ich tun, dass in Scala/Spark. Wenn ich aggregateByKey benutze, kann ich kein distinct haben, nicht wahr?
Vielen Dank für Ihre Hilfe
gleicher Schlüssel kann nicht zwei verschiedene Werte in einer Karte. – Knight71