Ich habe einen Datenrahmen mit einigen Nullwerten definiert. Einige Spalten sind vollständig Nullwerte.Wie Nullspalte in pyspark zu erkennen ist
>> df.show()
+---+---+---+----+
| A| B| C| D|
+---+---+---+----+
|1.0|4.0|7.0|null|
|2.0|5.0|7.0|null|
|3.0|6.0|5.0|null|
+---+---+---+----+
In meinem Fall möchte ich eine Liste der Spalten Namen zurückzugeben, die mit Nullwerten gefüllt sind. Meine Idee war, die konstanten Spalten zu erkennen (da die ganze Spalte den gleichen Nullwert enthält).
das ist, wie ich es tat:
nullCoulumns = [c for c, const in df.select([(min(c) == max(c)).alias(c) for c in df.columns]).first().asDict().items() if const]
aber dies bedeutet nicht null-Spalten als konstant betrachten, es funktioniert nur mit Werten. Wie soll ich das dann machen?
@desertnaut: Das ist ein ziemlich schneller ist, dauert nur Sekunden DECIM: D –