Betrachten Ich habe die dataframe
enthält folgende Daten,Wie wähle ich nur die erste Zeile aus wiederholten Werten in Spalten von Datenrahmen in Apache-Funke?
val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")
Ich möchte output
wie:
1, "John"
2, "Michael"
3, "Sham"
4, "Dan"
Wie kann ich select
nur row
vom dataset
wo repeatation auf die beiden ID und Name column
erlaubt ist.
Sie wollen sagen, Sie wollen nur mit wiederholten Werten ausgeben ..? in deinem Fall sollte "Sham" nicht in der Ausgabe sein. Ist das korrekt ? –