Ich versuche, fehlende Werte in Spark-Datenrahmen mit PySpark zu füllen. Aber es gibt keinen richtigen Weg, es zu tun. Meine Aufgabe ist es, die fehlenden Werte einiger Zeilen in Bezug auf ihre vorherigen oder folgenden Zeilen zu füllen. Konkret würde ich den Wert 0.0 einer Zeile in den Wert der vorherigen Zeile ändern, während ich in einer Zeile, die keine Null ist, nichts tun würde. Ich habe die Window-Funktion in Spark gesehen, aber es unterstützt nur einige einfache Operationen wie max, min, mean, die für meinen Fall nicht geeignet sind. Es wäre optimal, wenn wir eine benutzerdefinierte Funktion haben könnten, die über das gegebene Fenster gleitet. Hat jemand eine gute Idee?Fehlenden Wert in Spark-Datenframe füllen
2
A
Antwort
1
Verwenden Sie Spark window API, um auf vorherige Zeilendaten zuzugreifen. Wenn Sie mit Zeitreihendaten arbeiten, siehe auch this package für missing data imputation
.
+1
@wayag Wenn die Antwort für Sie funktioniert, akzeptieren Sie die Antwort :) –
Verwandte Themen
- 1. Füllen Sie die fehlenden Datumswerte in einer Pandas Dataframe Spalte
- 2. Timeline - füllen Blatt mit den fehlenden Termine zwischen bestimmten Intervall
- 3. Shop hexdecimal Wert als Byte-Ergebnisse fehlenden
- 4. Spring Starter: Fehlende Bean statt fehlenden Wert
- 5. Autocomplete Text mit fehlenden Wert hinzufügen
- 6. fehlenden Wert in highcharts Liniendiagramm ergibt keine Linie, Punkte nur
- 7. Wie der fehlenden Wert finden in R knn Verwendung
- 8. fehlenden Eigenschaften in HttpWebRequest
- 9. Fehlenden Datumsindex im Datenrahmen hinzufügen
- 10. Ausfüllen fehlenden Array-Indizes in php
- 11. in fehlenden Werten durch Gruppe in data.table
- 12. Füllen von fehlenden Werten in einem dat.frame von einem anderen data.frame
- 13. Schreiben Sie SQL Cursor, um alle fehlenden Zeilen in der Erweiterungstabelle zu füllen.
- 14. Fehlende Daten durch zufällige Auswahl von nicht fehlenden Werten in Pandas Dataform füllen
- 15. Füllen Sie die fehlenden Werte in einer Spalte durch die Spalte selbst und das Datum
- 16. Hinzufügen von fehlenden Zeilen
- 17. Python XLWT: Excel generiert von Python xlwt enthält fehlenden Wert
- 18. Umgang mit fehlenden Daten in R
- 19. Ersetzen von fehlenden Werten in R
- 20. Füllen der Quelle @Wert während des Komponententests
- 21. Verstecktes Feld mit Autovervollständigen-Wert füllen
- 22. eine Option Text/Wert mit JavaScript füllen
- 23. Finden Einheiten mit fehlenden Attributen in Datomic
- 24. Suche nach fehlenden Werten in einem Array
- 25. Imputation von fehlenden Werten für Kategorien in Pandas
- 26. Remapping `numpy.array` mit fehlenden Werten
- 27. Leere Zellen in Spalte mit Wert von anderen Spalten füllen
- 28. Einfügen von fehlenden Werten in eine Liste
- 29. Zoo-Objekt mit fehlenden Daten interpolieren
- 30. Füllung in Array in PHP mit fehlenden Jahren aufsteigend
Bitte teilen Sie Beispieldaten, Code, den Sie versuchten und erwartete Ausgabe. – mtoto
Wie würden Sie "die vorherige Zeile" definieren? Irgendeine Sortierung? –