2016-07-02 13 views
2

Ich wollte one-hot-Codierung anzuwenden (es ist nicht wichtig, die Frage zu verstehen) in meinen Datenrahmen auf diese Weise:Wie können Spalten im Datenrahmen eindeutig gemacht werden?

train = pd.concat([train, pd.get_dummies(train['Canal_ID'])], axis=1, join_axes=[train.index]) 
train.drop([11,'Canal_ID'],axis=1, inplace = True) 

train = pd.concat([train, pd.get_dummies(train['Agencia_ID'])], axis=1, join_axes=[train.index]) 
train.drop([1382,'Agencia_ID'],axis=1, inplace = True) 

Leider ursprünglicher Datenrahmen hatte Anzahl als Werte, deshalb nach Attrappen Variablen bekommen Es gibt viele Spalten mit dem gleichen Namen. Wie kann ich sie einzigartig machen?

Antwort

1

können Sie neue Spaltennamen festlegen, indem range mit shape:

df.columns = range(df.shape[1]) 

Probe:

df = pd.DataFrame({'A':[1,2,3], 
        'B':[4,5,6], 
        'C':[7,8,9], 
        'D':[1,3,5], 
        'E':[5,3,6], 
        'F':[7,4,3]}) 
print (df) 
    A B C D E F 
0 1 4 7 1 5 7 
1 2 5 8 3 3 4 
2 3 6 9 5 6 3 

print (df.shape) 
(3, 6) 

df.columns = range(df.shape[1]) 
print (df) 
    0 1 2 3 4 5 
0 1 4 7 1 5 7 
1 2 5 8 3 3 4 
2 3 6 9 5 6 3 
1

Ich würde eine Zufallszahl an die ursprüngliche ID der Spalten anhängen.

new_cols = train.columns 
new_cols = new_cols.map(lambda x: "{}-{}".format(x, randint(0,100)) 
train.columns = new_cols 
+0

Ich habe Angst vor Kollisionen, aber hübsch nette Idee)) – Rocketq

+1

Nun, ändern Sie die Randint für eine UUID und es wird keine Kollisionen geben – kiril

2

Try this: get_dummies hat ein "Präfix" Methode

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 
        'C': [1, 2, 3]}) 

pd.get_dummies(df, prefix=['col1', 'col2']) 
    C col1_a col1_b col2_a col2_b col2_c 
0 1  1  0  0  1  0 
1 2  0  1  1  0  0 
2 3  1  0  0  0  1 
Verwandte Themen