Ich habe ein interessantes Problem, ich versuche, die Delta-Zeit zwischen Aufzeichnungen an verschiedenen Standorten durchgeführt zu berechnen.Berechnung Delta-Zeit zwischen Datensätzen im Datenrahmen
id x y time
1 x1 y1 10
1 x1 y1 12
1 x2 y2 14
2 x4 y4 8
2 x5 y5 12
Ich versuche, einige Sache zu bekommen wie
id x y time delta
1 x1 y1 10 4
1 x2 y2 14 0
2 x4 y4 8 4
2 x5 y5 12 0
ich diese Art der Verarbeitung mit HiveQL getan haben durch individuelle UDTF verwenden, aber dachte, wie kann ich dies in der Regel mit Datenrahmen erreichen (es kann sei in R, Pandas, PySpark). Im Idealfall versuche ich eine Lösung für Python Pandas und Pyspark zu finden.
Jeder Hinweis wird geschätzt, danke für Ihre Zeit!
Warum Reihe '1 x1 y1 12 'fehlt in der Ausgabe? – jezrael
Benötigen Sie 'df.groupby (['id']) ['time']. Diff()'? – jezrael
Hallo @jezrael Zeile 1 fehlt, weil dieser Datensatz wurde an der gleichen Stelle wie Zeile 0, ich versuche, die Delta-Zeit an verschiedenen Orten zu finden. Ich kann nur dann eine Gruppe erstellen, nachdem ich die mehreren Datensätze entfernt habe, die an jedem Standort erstellt wurden. Ich möchte immer den ersten Rekord an einem Ort machen. – suppoor