Ich habe eine RDD mit folgenden Struktur:Spark-Summe durch Schlüssel ohne Reduzierung Reihen
(lang, id, name, max, min)
Ich mag eine weitere Spalte hinzuzufügen, total
, die die Subtraktion des Maximalwertes der Kolonne hält max
und das Minimum von Spalte min
für jede eindeutige lang
(ohne die Anzahl der Zeilen zu reduzieren). So würde ich so etwas wie
rdd:
+----+--+----+---+---+
|lang|id|name|max|min|
+----+--+----+---+---+
| en| | | 5| 1|
| en| | | 2| 0|
| de| | | 9| 2|
| en| | | 7| 1|
| nl| | | 3| 0|
| nl| | | 5| 1|
+----+--+----+---+---+
Um
rdd:
+----+--+----+---+---+-----+
|lang|id|name|max|min|total|
+----+--+----+---+---+-----+
| en| | | 5| 1| 7|
| en| | | 2| 0| 7|
| de| | | 9| 2| 7|
| en| | | 7| 1| 7|
| nl| | | 3| 0| 5|
| nl| | | 5| 1| 5|
+----+--+----+---+---+-----+
Aus Kompatibilitätsgründen bekommen, ich mag diesen ohne mit Datenrahmen/Spark-SQL erreichen.
Jeder Vorschlag wird sehr geschätzt!
für lang = de, max der Spalte max = 7 und min Spalte min = 0, verbinden sie so sollte die Gesamt 7 sein - 0 = 7 und nicht 6. Bitte lesen Ihre Ausgabe und korrigieren Sie es – eliasah