Die Drop-Duplikate Methoden von Spark DataFrames funktioniert nicht und ich denke, es ist, weil die Indexspalte, die Teil meiner Datenmenge war, als eine Spalte von Daten behandelt wird . Es sind definitiv Duplikate drin, ich habe es überprüft, indem ich COUNT()
und COUNT(DISTINCT())
auf allen Spalten außer dem Index verglichen habe. Ich bin neu bei Spark DataFrames, aber wenn ich Pandas verwendete, würde ich an dieser Stelle pandas.DataFrame.set_index
für diese Spalte tun.Spark DataFrame äquivalent zu Pandas.DataFrame.set_index/drop_duplicates vs. dropDuplicates
Kann jemand mit dieser Situation umgehen?
Zweitens scheint es 2 Methoden auf einem Spark DataFrame, drop_duplicates
und zu geben. Sind sie gleich?
teilen einige Ihrer Code, der uns die Frage besser zu verstehen helfen. – Munesh