2016-07-17 5 views
2

Ich versuche, fehlende Werte in Spark-Datenrahmen mit PySpark zu füllen. Aber es gibt keinen richtigen Weg, es zu tun. Meine Aufgabe ist es, die fehlenden Werte einiger Zeilen in Bezug auf ihre vorherigen oder folgenden Zeilen zu füllen. Konkret würde ich den Wert 0.0 einer Zeile in den Wert der vorherigen Zeile ändern, während ich in einer Zeile, die keine Null ist, nichts tun würde. Ich habe die Window-Funktion in Spark gesehen, aber es unterstützt nur einige einfache Operationen wie max, min, mean, die für meinen Fall nicht geeignet sind. Es wäre optimal, wenn wir eine benutzerdefinierte Funktion haben könnten, die über das gegebene Fenster gleitet. Hat jemand eine gute Idee?Fehlenden Wert in Spark-Datenframe füllen

+2

Bitte teilen Sie Beispieldaten, Code, den Sie versuchten und erwartete Ausgabe. – mtoto

+0

Wie würden Sie "die vorherige Zeile" definieren? Irgendeine Sortierung? –

Antwort

1

Verwenden Sie Spark window API, um auf vorherige Zeilendaten zuzugreifen. Wenn Sie mit Zeitreihendaten arbeiten, siehe auch this package für missing data imputation.

+1

@wayag Wenn die Antwort für Sie funktioniert, akzeptieren Sie die Antwort :) –

Verwandte Themen