Panda Datenrahmen entfernen Konstante Spalte

Ich habe einen Datenrahmen, der Spalten haben kann oder nicht, die den gleichen Wert haben. Zum BeispielPanda Datenrahmen entfernen Konstante Spalte

würde ich zurückkehren möchte nur

Gibt es eine einfache Art und Weise zu identifizieren, wenn eine dieser Spalten vorhanden sind und sie dann entfernen?

Quelle

2013-11-26 user1802143

Ich glaube, diese Option wird schneller sein als die anderen Antworten hier, da es nur einmal, um den Datenrahmen durchlaufen wird für den Vergleich und Kurzschluss, wenn ein nicht-eindeutigen Wert gefunden wird.

>>> df 

    0 1 2 
0 1 9 0 
1 2 7 0 
2 3 7 0 

>>> df.loc[:, (df != df.iloc[0]).any()] 

    0 1 
0 1 9 
1 2 7 
2 3 7

Quelle

2013-11-26 06:31:45 chthonicdaemon

Aargh zu: '<>'. –

@AndyHayden Pascal Gewohnheiten sterben schwer. Ich habe es geändert. – chthonicdaemon

+1 danke für die Änderung. Dies schließt die Any-Schaltung kurz, nachdem es bereits den! = Vergleich für jedes Element durchgeführt hat, so dass die Lösung von DSM wahrscheinlich effizienter sein wird ... frage mich, ob es eine bessere Kurzschlusslösung gibt. –

Ignorieren NaN s wie üblich, ist eine Spalte konstant, wenn nunique() == 1. Also:

>>> df 
    A B row 
0 9 0 1 
1 7 0 2 
2 5 0 3 
3 2 0 4 
>>> df = df.loc[:,df.apply(pd.Series.nunique) != 1] 
>>> df 
    A row 
0 9 1 
1 7 2 
2 5 3 
3 2 4

Quelle

2013-11-26 06:16:10 DSM

'df.apply (pd.Series.nunique)' ist einfacher 'df.nunique()', zumindest in Pandas 0.20.3. – EOL

Und wenn wir wollen, dass NaN als ein eindeutiger Wert betrachtet wird, funktioniert 'df.nunique (dropna = False)' gut (es behandelt die Tatsache, dass NaN ∈ NaN wie wir erwarten, alle NaN-Werte als denselben Wert zählend, obwohl sie sind nicht gleich). – EOL

Unter der Annahme, dass der Datenrahmen vollständig vom Typ numerisch ist:

Sie versuchen können:

>>> df = df.loc[:, df.var() == 0.0]

die entfernen konstante Spalten (d Varianz = 0.).

Wenn der Datenrahmen des Typs sowohl numerische als auch Objekt, versuchen Sie sollten dann:

>>> enum_df = df.select_dtypes(include=['object']) 
>>> num_df = df.select_dtypes(exclude=['object']) 
>>> num_df = num_df.loc[:, num_df.var() == 0.0] 
>>> df = pd.concat([num_df, enum_df], axis=1)

die konstante Spalten von nur numerischen Typ sinkt.

Wenn Sie wollen auch konstant Enum Spalten ignorieren/löschen, sollten Sie versuchen:

>>> enum_df = df.select_dtypes(include=['object']) 
>>> num_df = df.select_dtypes(exclude=['object']) 
>>> enum_df = enum_df.loc[:, [True if y !=1 else False for y in [len(np.unique(x, return_counts=True)[-1]) for x in enum_df.T.as_matrix()]]] 
>>> num_df = num_df.loc[:, num_df.var() == 0.0] 
>>> df = pd.concat([num_df, enum_df], axis=1)

Quelle

2017-01-12 14:05:10 Hng

Vermutlich möchten Sie 'df = df.loc [:, ~ df.var() == 0.0]' sonst wählen Sie die 0 Spalten. Es ist wahrscheinlich auch wert, 'np.isclose (0, df.var())' für mögliche Gleitkommafehler zu machen – jeremycg

Hier ist meine Lösung ist, da ich sowohl Objekt und numerische Spalten tun musste. Nicht behauptet, es sei super effizient oder irgendetwas anderes, aber es macht die Arbeit erledigt.

Zusätzliche Einschränkung, es wird nicht auf Spalten von Listen oder Arrays arbeiten, da sie nicht hashbar sind.

Quelle

2018-02-13 23:04:02 dreyco676

Panda Datenrahmen entfernen Konstante Spalte

Antwort

Verwandte Themen