Ich habe eine Cassandra Tabelle XYX mit Spalten ( id UUID, einen Zeitstempel einzufügen, Kopftext)Duplikate entfernen, ohne Shuffle Funken
Wo id und Einsatz sind zusammengesetzte Primärschlüssel.
Ich benutze Dataframe und in meiner Spark-Shell holen ich ID und Header-Spalte. Ich möchte verschiedene Zeilen basierend auf ID und Header-Spalte haben.
Ich sehe viele Shuffles, die nicht der Fall sein, da Spark Cassandra-Connector sicherstellt, dass alle Zeilen für eine bestimmte Cassandra-Partition in derselben Spark-Partition sind.
Nach dem Abrufen verwende ich DropDuplicates, um verschiedene Datensätze zu erhalten.