Ich bin mit Datenrahmen in Pyspark 1.4 vor Ort herumspielen und habe Probleme, die Drop-Duplikate-Methode zu arbeiten. Liefert den Fehler "AttributeError: 'list' Objekt hat kein Attribut 'dropDuplicates'". Nicht ganz sicher, warum, wie ich zu sein scheinen, die Syntax in der latest documentation zu folgen. Scheint, als ob ich einen Import für diese Funktionalität oder etwas vermisse.entfernen Duplikate aus einem Datenrahmen in pyspark
#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()
#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()
#dropping duplicates from the dataframe
df1.dropDuplicates().show()
ok, das macht jetzt Sinn. – Jared