2016-07-28 11 views
2

Ich habe einen Datetime indizierten Datenrahmen mit einer stündlichen Häufigkeit. Ich würde gerne eine Gruppierung nach Objekt erstellen - Gruppierung nach Jahreszeit. Nach Saison bedeutet Frühling die Monate 3, 4, 5, Sommer ist 6, 7, 8 und so weiter. Ich hätte gerne eine einzigartige Gruppe für jede Jahreszeit-Saison-Kombination. Gibt es eine Möglichkeit, dies mit einem benutzerdefinierten DateOffset zu tun? Würde es eine Unterklasse erfordern? Oder mache ich lieber eine Saisonspalte und mache dann: grouper = df.groupby([df['season'], df.index.year]).Python-Pandas: Erstellen eines saisonalen DateOffset-Objekts?

Aktueller Code ist hässlich:

def group_season(df): 
    """ 
    This uses the meteorological seasons 
    """ 
    df['month'] = df.index.month 
    spring = df['month'].isin([3,4,5]) 
    spring[spring] = 'spring' 
    summer = df['month'].isin([6,7,8]) 
    summer[summer] = 'summer' 
    fall = df['month'].isin([9,10,11]) 
    fall[fall] = 'fall' 
    winter = df['month'].isin([12,1,2]) 
    winter[winter] = 'winter' 
    df['season'] = pd.concat([winter[winter != False], spring[spring != False],\ 
    fall[fall != False], summer[summer != False]], axis=0) 

    return df.groupby([df['season'], df.index.year]) 

Antwort

2

Für die Art der Gruppierung Sie tun möchten, verwenden Sie anchored quarterly offsets.

import numpy as np 
import pandas as pd 

dates = pd.date_range('2016-01', freq='MS', periods=12) 
df = pd.DataFrame({'num': np.arange(12)}, index=dates) 
print(df) 

#    num 
# 2016-01-01 0 
# 2016-02-01 1 
# 2016-03-01 2 
# 2016-04-01 3 
# 2016-05-01 4 
# 2016-06-01 5 
# 2016-07-01 6 
# 2016-08-01 7 
# 2016-09-01 8 
# 2016-10-01 9 
# 2016-11-01 10 
# 2016-12-01 11 

by_season = df.resample('QS-MAR').sum() 
print(by_season) 

#    num 
# 2015-12-01 1 
# 2016-03-01 9 
# 2016-06-01 18 
# 2016-09-01 27 
# 2016-12-01 11 

Sie können auch schöner, beschreibende Etiketten im Index machen:

SEASONS = { 
    'winter': [12, 1, 2], 
    'spring': [3, 4, 5], 
    'summer': [6, 7, 8], 
    'fall': [9, 10, 11] 
} 
MONTHS = {month: season for season in SEASONS.keys() 
         for month in SEASONS[season]} 

by_season.index = (pd.Series(by_season.index.month).map(MONTHS) + 
        ' ' + by_season.index.year.astype(str)) 
print(by_season) 

#    num 
# winter 2015 1 
# spring 2016 9 
# summer 2016 18 
# fall 2016  27 
# winter 2016 11