Ich habe eine komplizierte Datenstruktur, die I verwaltet abzuflachen und die Ausgabe hat die folgende Struktur:Filtering PySpark Datenrahmen Reihen
'name'
------
['a','b','c']
[]
[null]
null
['f']
[null,'d']
Die gewünschte Leistung nach dem obigen Datenrahmen Filterung:
'name'
------
['a','b','c']
['f']
Ich weiß, dass Zeilen, die nur 'null' haben, mit df.where(col('name').isNotNull())
gefiltert werden können. Ich versuchte mit
filtered = udf(lambda row: int(not all(x is None for x in row)),IntegerType())
aber das produzierte nicht die Ergebnisse, auf die ich gehofft hatte. Wie filtere ich Zeilen, die leer sind oder mindestens eine Null enthalten?
Werke für [] und null verwendet werden, aber für [null] funktioniert nicht. – user201411
[null] meinst du [keine]? –
Die Ausgabe von meinem Python-Skript ist null, nicht keine – user201411