Angenommen, Sie haben ein Spark-Datenframe mit einigen Nullwerten, und Sie möchten die Werte einer Spalte durch die Werte von einem anderen ersetzen, wenn vorhanden. In Python/Pandas können Sie die fillna() Funktion verwenden, um dies ganz gut zu tun:Spark: Ersetzen Sie fehlende Werte durch Werte aus einer anderen Spalte
df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3'])
DF = df.toPandas()
DF['c1'].fillna(DF['c2']).fillna(DF['c3'])
Wie dies geschehen Pyspark verwenden kann?
Ausgezeichnet. Beachten Sie, dass mehrere Spalten zum Füllen von Werten übergeben werden können 'cDf.select (coalesce (cDf [" a "], cDf [" b "], lit (0))). Show()' – evilpilotfish