import numpy as np
df = spark.createDataFrame(
[(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
('session', "timestamp1", "id2"))
Erwartete AusgabeWie kann man die Null- und Nan-Werte für jede Spalte in einem Pyspark-Dataframe effizient ermitteln?
Datenrahmen mit der Zählung der nan/null für jede Spalte
Hinweis: Die vorherigen Fragen, die ich in Stack-Überlauf prüft nur für null gefunden & nicht nan. Deshalb habe ich eine neue Frage erstellt.
Ich weiß, ich kann Isnull() -Funktion in Spark verwenden, um die Anzahl der Null-Werte in der Spark-Spalte zu finden, aber wie Nan-Werte in Spark Datenrahmen zu finden?
Möchten Sie eine separate Anzahl von Nan/Null-Wert für jede Spalte (also zwei Spalten für jede Spalte) oder möchten Sie nur wissen, wie viele Elemente Ihrer Spalten nicht als eine Zahl betrachtet werden können? – titiro89
separate count of nan/Null Wert wird funktionieren –