Ich habe ein Datenframe in Pyspark. Hier ist, wie es aussieht,Einfügen von Datensätzen in einem Spark-Datenframe
+---------+---------+
|timestamp| price |
+---------+---------+
|670098928| 50 |
|670098930| 53 |
|670098934| 55 |
+---------+---------+
ich in den Lücken in Zeitstempeln mit dem vorherigen Zustand füllen will, so dass ich ein perfektes Set bekommen kann zeitgewichtete Mittelwert zu berechnen. Hier ist, was die Ausgabe sein sollte -
+---------+---------+
|timestamp| price |
+---------+---------+
|670098928| 50 |
|670098929| 50 |
|670098930| 53 |
|670098931| 53 |
|670098932| 53 |
|670098933| 53 |
|670098934| 55 |
+---------+---------+
Schließlich ich diesen neuen Datenrahmen auf der Festplatte bestehen bleiben soll, und meine Analyse zu visualisieren.
Wie mache ich das in pyspark? (Der Einfachheit halber habe ich gehalten, nur 2 Spalten. Meine eigentliche Datenrahmen hat 89 Spalten mit ~ 670 Millionen Datensätze vor, die Lücken zu füllen.)
Du könntest mit scipy interpolieren. Ich bin mir nicht sicher, dass PySpark tun kann, was Sie wollen –
@ cricket_007 Funken kann das nicht tun. Veenit, ich bin nicht sicher, warum willst du das überhaupt machen? – eliasah
@eliasah Ich versuche, einen Datenrahmen mit einem Datensatz für jeden Zeitstempel (niedrigste Granularität Ebene) zu erstellen, so dass, wenn ich zeitgewichtete Durchschnittswerte tun möchte, ist es sehr praktisch. – Veenit