Ich verwende diese Beispieldaten, die fehlende Werte in verschiedenen Spalten enthält, und ich möchte alle Zeilen entfernen, die fehlenden Wert enthält.So entfernen Sie fehlende Werte in Pyspark
Daten Beschreibung ist:
ich online habe gesucht und scheint, wie dropna funktioniert nur für Datenrahmen. Aber wenn ich einen Datenrahmen erstellen, ich bekam eine Fehlermeldung
auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))
Ich denke, es ist wegen der NA, kann ich nicht einen Datenrahmen erstellen. Wie soll ich vorgehen? Danke im Voraus!
So, hier ist was ich getan habe 'auto = sc.textFile ("file: ///home/cloudera/Downloads/auto_mpg_original.csv") auto_RDD = auto. flatMap (Lambda x: x.split (",")) 'Jetzt erstelle ich eine RDD. Dann habe ich versucht, einen DF mit dem Code im ursprünglichen Post 'auto_DF_prep = ...' zu erstellen, aber diesen Fehler bekommen. Wie kann ich einen Datenrahmen erstellen? – vivi11130704
Das hängt davon ab, ob Sie Spark 2.x verwenden –