wie SQL coalesce in Pandas

Ich habe einen Datenrahmen wiewie SQL coalesce in Pandas

df = pd.DataFrame({"A":[1,2,np.nan],"B":[np.nan,10,np.nan], "C":[5,10,7]}) 
    A  B C 
0 1.0 NaN 5 
1 2.0 10.0 10 
2 NaN NaN 7

Ich möchte hinzufügen, um eine neue Spalte ‚D‘ implementieren. Erwartete Ausgabe ist

 A  B C D 
0 1.0 NaN 5 1.0 
1 2.0 10.0 10 2.0 
2 NaN NaN 7 7.0

Vielen Dank im Voraus!

Quelle

2017-04-03 Anoop

Der Wert von 'df' in Ihrem ersten Code-Snippet ist falsch. Und wie berechnet man die erwartete Leistung? – DyZ

Ich glaube, Sie brauchen bfill mit der Auswahl ersten Spalte iloc:

df['D'] = df.bfill(axis=1).iloc[:,0] 
print (df) 
    A  B C D 
0 1.0 NaN 5 1.0 
1 2.0 10.0 10 2.0 
2 NaN NaN 7 7.0

gleiche wie:

df['D'] = df.fillna(method='bfill',axis=1).iloc[:,0] 
print (df) 
    A  B C D 
0 1.0 NaN 5 1.0 
1 2.0 10.0 10 2.0 
2 NaN NaN 7 7.0

Quelle

2017-04-03 06:22:14 jezrael

Option 1
pandas

df.assign(D=df.lookup(df.index, df.isnull().idxmin(1))) 

    A  B C D 
0 1.0 NaN 5 1.0 
1 2.0 10.0 10 2.0 
2 NaN NaN 7 7.0

Option 2
numpy

v = df.values 
j = np.isnan(v).argmin(1) 
df.assign(D=v[np.arange(len(v)), j]) 

    A  B C D 
0 1.0 NaN 5 1.0 
1 2.0 10.0 10 2.0 
2 NaN NaN 7 7.0

naive Zeittest
über gegebene Daten

über größere Daten

Quelle

2017-04-03 06:24:13 piRSquared

@jezrael Post aktualisiert – piRSquared

Wenn ich nur 'A' und 'C' für die Erstellung von 'D' will, wo kann ich es angeben. Bitte lassen Sie es mich wissen – Anoop

@Annoop Sie können diese Ansätze auf 'df [['A', 'C']]' 'ausführen. Dies funktioniert besonders gut für den "numpigen" Ansatz. 'v = df [['A', 'C']]. Werte ' – piRSquared

Ein anderer Weg ist explizit in dieser Reihenfolge Spalte D mit A, B, C zu füllen.

df['D'] = np.nan 
df['D'] = df.D.fillna(df.A).fillna(df.B).fillna(df.C)

Quelle

2017-04-03 09:02:18 philshem

wie SQL coalesce in Pandas

Antwort

Verwandte Themen