Vergleichen von Spalten eines Datensatzes mit Python

Ich habe einen riesigen Datensatz (2653, 17). Ich habe bemerkt, dass zwei Spalten etwas verwandt sind, aber nicht genau, wie ich aus der Methode value_counts abgeleitet habe. Was ich meine ist der Großteil des entsprechenden Eintrags von I ist M oder von C ist NaN. Gibt es eine Möglichkeit, dies zu bestätigen oder zu berechnen, wie viele Einträge auf diese Weise verknüpft sind? Ich habe versucht, sie in numerische Werte und Korrelationsverfahren zu konvertieren, aber ich denke nicht, dass das hier funktioniert.Vergleichen von Spalten eines Datensatzes mit Python

Quelle

2017-12-30 deadcode

Dieser SO Post könnte ein guter pl sein ace zu starten - https://stackoverflow.com/questions/25571882/pandas-columns-correlation-with-statistical-significance. ASFAIK müssen Sie diese Buchstaben in eindeutige numerische Werte umwandeln, damit diese Tests funktionieren. – TheF1rstPancake

Kannst du sie nicht einfach überkreuzen mit '' pd.crosstab (df.customer_type, df.sex) ''und siehst, was auftaucht? –

Eine andere Sache, auf die Sie achten müssen, ist, dass Ihre "Sex" -Spalte nicht viel Variation hat. Es wird also wahrscheinlich nicht sehr hilfreich sein. Aber das könnte außerhalb des Bereichs Ihres aktuellen Problems liegen. – TheF1rstPancake

Crosstab sollte die ursprüngliche Methode, um zu sehen Beziehung zwischen zwei kategorialen Variablen:

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'], 
      'sex': ['M','M','M','','','','M']}) 
print(df) 
print(pd.crosstab(df.customer_type, df.sex))

Ausgang:

sex    M 
customer_type  
C    3 0 
I    0 4

es auch sehr hilfreich sein Visualizing kann: https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables

Quelle

2017-12-30 17:28:33 rnso

Die Kreuztabellenmethode zeigt nicht das vollständige Bild in meiner Dataset wegen Fehler "Der Name keine tritt mehrmals auf, verwenden Sie eine Ebenennummer", wenn ich pd.crosstab (train.sex, train.customer_type, Ränder = True, dropna = False). Dies ist ein Fehler in der Kreuztabelle, der in https://github.com/pandas-dev/pandas/issues/13279 und in https://github.com/pandas-dev/pandas/issues/10772 aufgetreten ist – deadcode

Vergleichen von Spalten eines Datensatzes mit Python

Antwort

Verwandte Themen