2017-08-26 2 views
0

Eigentlich zwei Fragen, aber versuchen wir es zu erklären.Python, Pandas: Datenrahmen auf Zeitstempel und Offset verbinden

Ich habe zwei Datenquellen (z. B. Datenrahmen). Einer enthält die GPS-Koordinaten und den Zeitstempel einer gefahrenen Spur. Der andere enthält bestimmte Punkte von Interesse, die durch einen zeitlichen Versatz gegeben sind - aber ohne die GPS-Koordinate. Die Aufgabe besteht darin, die GPS-Koordinaten für die Punkte von Interesse zu finden.

Hier ist, was ich habe. Der Datenrahmen mit der GPS-Koordinaten an 1sec Abstände neu abgetasteten und fehlende Werte werden in einer linearen Weise interpolieren:

df_resampled.head() 

Mit diesem Ausgang:

Time, LongitudeDegrees, LatitudeDegrees, DistanceMeters, AltitudeMeters 

2017-08-24 13:33:46, 15.457636, 47.047332, 0.0, 348.600006 
2017-08-24 13:33:47, 15.457668, 47.047288, 0.0, 348.600006 
2017-08-24 13:33:48, 15.457699, 47.047244, 0.0, 348.600006 
2017-08-24 13:33:49, 15.457973, 47.047136, 0.0, 348.600006 

Bemerkung: Die Typen sind alle Schwimmer während der Der Index ist Numpy.dtype (datetime). Umbau und Resampling wurde von getan:

# convert numeric types first 
df = df.apply(pd.to_numeric, errors='ignore') 

# convert timestamp to datetime and set the index 
df['Time'] = pd.to_datetime(df['Time']) 
df.set_index('Time', inplace=True) 

# resample to seconds and linear fill of missing values 
df_downscaled = df.resample('S').mean() 
df_resampled = df_downscaled.interpolate(method='linear') 

Der andere Datenrahmen enthält die Punkte von Interesse und keinen Zeitstempel, sondern eine zeitversetzte:

df_poi.head() 

gibt diese Ausgabe:

index, time_offset, value 

0, 00:25, 60 
1, 01:18, 60 
2, 01:30, 100 
3, 01:55, 100 
4, 02:16, 100 

Frage & Aufgabe: Aber jetzt bin ich fest. Ich dachte, die Spalte des zweiten Datenrahmens zu einem Zeitraum oder Datetime-Typ Spalte zu konvertieren und diese zum ersten Zeitstempel (start_time) des ersten Datenrahmens hinzuzufügen.

Aber a) Ich habe keine Ahnung, wie man die Zeichenkette des Formats mm: ss (Minuten: Sekunden) zu einem Datum/Uhrzeit-Offset (oder Periode) konvertiert und es zu einem anderen Zeitstempel hinzufügt.

Die START_TIME zu dem alle Offsets hinzugefügt werden müssen, wäre dies sein:

start_time = df_resampled.index[0] 

Sobald der Versatz zu einem echten Zeitstempel umgewandelt wird, würde ich den zweiten Datenrahmen mit dem ersten auf dem Zeitstempel Joinspalte .

Antwort

1

pd.to_timedelta kann Zeichenfolgen in HH:MM:SS Format zu timedelta64 s konvertieren. Da die Saiten sind in MM:SS Format, Sie

df_poi['time_offset'] = pd.to_timedelta('00:' + df_poi['time_offset']) 

wandeln sie in timedelta64 s nutzen könnten. (Die ('00:' + df_poi['time_offset']) fügt 00: zu jeder Zeichenfolge in df_poi['time_offset'], um eine neue Zeichenfolge in HH:MM:SS Format zu bilden.

)

Sie können hinzufügen start-df_poi['time_offset']:

result = pd.merge(df, df_poi, how='right', left_index=True, right_on='Time') 

import pandas as pd 
import numpy as np 
np.random.seed(2017) 
N, M = 1000, 5 
df = pd.DataFrame({'Time':pd.date_range('2017-8-24 13:33:46', periods=N, freq='S'), 
        'Long':np.random.uniform(0, 360, size=N), 
        'Lat':np.random.uniform(-90, 90, size=N),}) 
df = df.set_index(['Time']) 

df_poi = pd.DataFrame({'time_offset':['00:25', '01:18', '01:30', '01:55', '02:16'], 
         'value':np.random.randint(100, size=M)}) 

df_poi['time_offset'] = pd.to_timedelta('00:' + df_poi['time_offset']) 
start = df.index[0] 
df_poi['Time'] = df_poi['time_offset'] + start 
result = pd.merge(df, df_poi, how='right', left_index=True, right_on='Time') 

Ausbeuten

  Lat  Long time_offset value    Time 
0 -19.851775 276.063876 00:00:25  28 2017-08-24 13:34:11 
1 22.399545 61.956233 00:01:18  68 2017-08-24 13:35:04 
2 35.472442 275.165153 00:01:30  56 2017-08-24 13:35:16 
3 -60.588755 91.961901 00:01:55  2 2017-08-24 13:35:41 
4 34.339641 4.033255 00:02:16  75 2017-08-24 13:36:02 
012.351.641:

start = df.index[0] 
df_poi['Time'] = df_poi['time_offset'] + start 

Jetzt können Sie die beiden Datenrahmen verschmelzen

+0

Ich habe str.split verwendet und die Dauer von Minuten und Sekunden auf Sekunden umgerechnet. Dann habe ich die start_time mit dem Offset hinzugefügt. Ihre Lösung ist jedoch klüger. – Matthias

Verwandte Themen