Filtering PySpark Datenrahmen Reihen

Ich habe eine komplizierte Datenstruktur, die I verwaltet abzuflachen und die Ausgabe hat die folgende Struktur:Filtering PySpark Datenrahmen Reihen

'name' 
    ------ 
    ['a','b','c'] 
    [] 
    [null] 
    null 
    ['f'] 
    [null,'d']

Die gewünschte Leistung nach dem obigen Datenrahmen Filterung:

'name' 
------ 
['a','b','c'] 
['f']

Ich weiß, dass Zeilen, die nur 'null' haben, mit df.where(col('name').isNotNull()) gefiltert werden können. Ich versuchte mit

filtered = udf(lambda row: int(not all(x is None for x in row)),IntegerType())

aber das produzierte nicht die Ergebnisse, auf die ich gehofft hatte. Wie filtere ich Zeilen, die leer sind oder mindestens eine Null enthalten?

Quelle

2017-05-21 user201411

die folgenden gefilterten Funktion kann als Ihr UDF

filtered = lambda x: not bool([y for y in x if y is None]) if x else False 

>>> filtered(['a','b','c']) 
True 
>>> filtered([]) 
False 
>>> filtered([None]) 
False 
>>> filtered(None) 
False 
>>> filtered(['f']) 
True 
>>> filtered([None,'d']) 
False

Quelle

2017-05-21 17:36:11

Werke für [] und null verwendet werden, aber für [null] funktioniert nicht. – user201411

[null] meinst du [keine]? –

Die Ausgabe von meinem Python-Skript ist null, nicht keine – user201411

Filtering PySpark Datenrahmen Reihen

Antwort

Verwandte Themen