Ich verwende den folgenden Code:Spark DataFrame - .distinct() funktioniert nicht?
df = df.select(
df.col("col").as("col1"),
df.col("col_").as("col2");
df = df.select("*").distinct();
df= df.sample(true, 0.8).limit(300);
df= df.withColumn("random", lit(0));
df.show();
ich verschiedene Zeilen auswählen möchten, dann eine Probe nehmen und es auf 300 Datensätze beschränken jedoch df.show();
zeigt, dass es doppelte Zeilen den Platz am ganzen Körper. Was vermisse ich?
Vielen Dank!
Können Sie uns etwas zeigen? –
@AlbertoBonsanto Zeigen Sie was genau? Die Daten selbst sind vertraulich. Aber das sind komplette Dows, die Duplikate sind, nicht sicher, was Sie sonst noch brauchen. –