2016-09-11 5 views
1

Ich habe versucht, etwas zu finden, das mir helfen könnte, aber ich konnte nicht. Ich würde mich freuen, wenn mich jemand damit verlinken könnte, wenn meine Frage schon beantwortet ist.Pandas Dataframe Transpose

Ich habe einen Pandas-Datenrahmen, der zeilenweise Funktionen hat. Zum Beispiel:

Patient_ID Feature_Id Feature_Value 
0   3   10   0.30 
1   3   50   0.20 
2   3   60   1.00 
3   4   10   0.25 

muss ich sie in spaltenweise Features konvertieren (im wesentlichen Säulen in Pandas) - so etwas wie unten:

Patient_Id 10 50 60 
     3 0.30 0.2 1.0 
     4 0.25 Nan Nan 
+0

@ayhan Entschuldigung können Sie mich auf einige Hilfe zeigen, wie Sie die Tabellen hier formatiert? – Ahsan

+1

Sie können Ihren Datenrahmen direkt hier einfügen und auf '{}' klicken, während der Datenrahmen ausgewählt ist. Es wird es als Code formatieren. Ich habe '|' Zeichen entfernt und leere Zeilen verwendet, das ist alles. Sie können auf [Bearbeiten] klicken (http://stackoverflow.com/posts/39437387/edit), um den aktuellen Abschlag zu sehen. – ayhan

Antwort

1

Sie könnten versuchen, pd.pivot_table

In [16]: pd.pivot_table(df, index='Patient_ID', values='Feature_Value', columns='Feature_ID') 
Out[16]: 
Feature_ID 10 50 60 
Patient_ID     
3   0.30 0.2 1.0 
4   0.25 NaN NaN 

Beachten Sie, dass Sie den Parameter aggfunc (Standardeinstellung) verwenden können, wenn Sie angeben müssen, was zu tun ist, wenn mehr als ein einzelner Eintrag vorhanden ist (den Sie in Ihrem Beispiel nicht haben) ist es, den Mittelwert zu berechnen).

+0

Ich bin aufgefordert, Feature-Auswahl-Techniken auf die Reihe-weise Spalten ausführen. Ich finde es schwer, das zu tun, also wandle ich sie in Spalten um. Es ist nicht ideal, weil die Matrix extrem spärlich ist. Gibt es eine Methode, die Korrelationsstatistiken für die Features finden könnte, während sie sich in der Spalte Feature_Id befinden? – Ahsan

+0

@Ahsan Nicht sicher, ich verstehe, zwischen was genau Sie Korrelationen zu finden versuchen. Könnten Sie 'df.T.corr()' versuchen und weiter spezifizieren, wenn das nicht das ist, was Sie versuchen? –

+0

Feature_Id Spalte verfügt über alle Funktionen, um bestimmte Themen zu klassifizieren. Es gibt Tausende von Funktionen und ich denke, ich könnte diejenigen auswählen, die mehr zur Auswahl des richtigen Labels beitragen. Labels sind binär. Daher könnte es hilfreich sein, die Korrelation zwischen Features und der abhängigen Variablen (Label) zu finden. Das ist sowieso die Idee. – Ahsan