In Pandas habe ich zwei Datenrahmen. Eine enthält die Feiertage eines bestimmten Landes von http://www.timeanddate.com/holidays/austria und eine andere enthält eine Datumsspalte. Ich möchte die #days
nach einem Urlaub berechnen.python time lags holidays
def compute_date_diff(x, y):
difference = y - x
differenceAsNumber = (difference/ np.timedelta64(1, 'D'))
return differenceAsNumber.astype(int)
for index, row in holidays.iterrows():
secondDF[row['name']+ '_daysAfter'] = secondDF.dateColumn.apply(compute_date_diff, args=(row.day,))
jedoch diese
- beispielsweise die falsche Differenz berechnet
>
als ein Jahr für den Fallholidays
enthält Daten für mehr als ein Jahr. - ist ziemlich langsam.
Wie kann ich die Fehler und erhöht die Leistung beheben? Gibt es eine Parallele? Oder was ist mit http://pandas.pydata.org/pandas-docs/stable/timeseries.html#holidays-holiday-calendars Da ich neu bei Pandas bin, bin ich mir nicht sicher, wie man das aktuelle Datum/den Index des Datumsobjekts erhält, während ich mich in Anwendung bewerbe. Soweit ich weiß, kann ich den umgekehrten Weg nicht beschreiben. über alle meine Zeilen in secondDF
, wie es war unmöglich für mich Feature Spalten zu erzeugen, während über apply
Iterieren