Verursacht groupByKey eine Mischung aller Werte im Netzwerk, auch wenn sie bereits innerhalb einer Partition angeordnet sind. Wenn wir in sparkSQL gruppieren, verwendet es groupbykey oder aggregateByKey für die Leistung ?GroupbyKey auf Spark-Datensatz
1
A
Antwort
0
groupByKey
werden Daten nicht gemischt, wenn die Schlüssel alle in jeder Partition liegen. Aber das wäre ein seltener Fall.
groupBy
Operation in sparkSQL
ist eine aggregateByKey
, die es eine Aggregationsoperation macht. Wir können Aggregationsfunktionen nach groupBy
in sparkSQL
definieren. groupBy
Erstellen Sie einfach eine Instanz der Aggregation Expressions
für jede Gruppe und jede Aggregation und gehen Sie durch die Daten und aktualisieren Sie diese Ausdrücke
Verwandte Themen
- 1. groupByKey in Spark-Dataset
- 2. pySpark - groupByKey Problem
- 3. PySpark groupByKey Rückkehr pyspark.resultiterable.ResultIterable
- 4. Spark-Scala: GroupByKey und Art
- 5. Spark Streaming GroupByKey und updateStateByKey Implementierung
- 6. Wird groupByKey jemals über reduceByKey bevorzugt
- 7. Reduziere ResultIterable Objekte nach groupByKey in PySpark
- 8. Running groupByKey/reduceBuKey für partitionierte Daten, aber mit anderen Schlüssel
- 9. Pyspark - nach groupByKey und zähle eindeutigen Wert nach dem Schlüssel?
- 10. Verwenden von JodaTime in Sparks groupByKey und countByKey
- 11. Möglichkeiten zum Ersetzen von GroupByKey in Apache Spark
- 12. Inkonsistente Ergebnisse in pyspark combateByKey (im Gegensatz zu groupByKey)
- 13. GroupByKey mit Datensätzen in Spark-2.0 unter Verwendung von Java
- 14. GroupByKey und erstellen Listen von Werten pyspark SQL Datenrahmen
- 15. Bilden Liste der Spalten nach groupByKey oder groupBy
- 16. GroupByKey gibt keine Elemente in Google Cloud Dataflow zurück
- 17. Apache Spark keinen Vorteil bei der Verwendung der Karte von Schlüsseln und Quelldaten auf Reduziererseite statt groupByKey()?
- 18. Pyspark Verwenden Sie groupByKey/mapValues mehr als einmal in einer Zeile
- 19. Wie ersetzt man den groupByKey mit reduceByKey, um in Spark Java als Iterable-Wert zurückzugeben?
- 20. Akkumulation von Elementen in GroupByKey-Subtask beim Schreiben in BigQuery Apache Beam v2.0
- 21. Apache Spark Scala: groupbykey verwaltet Reihenfolge der Werte in der Eingabe RDD oder nicht
- 22. , wie die Ausgabe von groupByKey RDD, die Schlüssel und Liste von Werten ist RDD [K, Liste [v]]
- 23. Kann ich groupByKey in jeder Partition von RDD verwenden? oder wie kann ich den größten Schlüssel jeder Partition finden?
- 24. Partition Spark DataFrame basierend auf Spalte
- 25. Speichert Funke alle Elemente einer RDD [K, V] für einen bestimmten Schlüssel in einer einzelnen Partition nach "groupByKey", auch wenn die Daten für einen Schlüssel sehr groß sind?
- 26. Verwenden Sie, wenn sonst in Spark-Karte zu reduzieren
- 27. Apache Spark: Was ist die entsprechende Implementierung von RDD.groupByKey() mit RDD.aggregateByKey()?
- 28. zur Gruppe Werteliste
- 29. Wie führe ich einen einfachen reduceByKey in Apache Spark aus?
- 30. Überprüfen Sie Datenwasserzeichen in verschiedenen Schritten über die Dataflow-API