Ich habe einen riesigen Datensatz (2653, 17). Ich habe bemerkt, dass zwei Spalten etwas verwandt sind, aber nicht genau, wie ich aus der Methode value_counts abgeleitet habe. Was ich meine ist der Großteil des entsprechenden Eintrags von I ist M oder von C ist NaN. Gibt es eine Möglichkeit, dies zu bestätigen oder zu berechnen, wie viele Einträge auf diese Weise verknüpft sind? Ich habe versucht, sie in numerische Werte und Korrelationsverfahren zu konvertieren, aber ich denke nicht, dass das hier funktioniert.Vergleichen von Spalten eines Datensatzes mit Python
Antwort
Crosstab sollte die ursprüngliche Methode, um zu sehen Beziehung zwischen zwei kategorialen Variablen:
df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'],
'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))
Ausgang:
sex M
customer_type
C 3 0
I 0 4
es auch sehr hilfreich sein Visualizing kann: https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables
Die Kreuztabellenmethode zeigt nicht das vollständige Bild in meiner Dataset wegen Fehler "Der Name keine tritt mehrmals auf, verwenden Sie eine Ebenennummer", wenn ich pd.crosstab (train.sex, train.customer_type, Ränder = True, dropna = False). Dies ist ein Fehler in der Kreuztabelle, der in https://github.com/pandas-dev/pandas/issues/13279 und in https://github.com/pandas-dev/pandas/issues/10772 aufgetreten ist – deadcode
- 1. Massenverändernde Spalten eines Datensatzes zu numerischen
- 2. So vergleichen Sie einen Spaltenwert mit anderen Spalten eines großen Datensatzes in Pandas
- 3. Wie zwei Spalten zu vergleichen, mit Python?
- 4. einige Spalten von einigen Tabellen vergleichen Python mit
- 5. Montage eines Datensatzes von AWS
- 6. Vergleichen von Spalten
- 7. Codierung eines Datensatzes mit Protobuff
- 8. Aktualisieren eines Datensatzes mit SQL
- 9. Löschen eines Datensatzes (mit GridView)
- 10. SAS: Konvertieren eines Datensatzes aus Zeilen in Spalten
- 11. Altern eines Datensatzes
- 12. Unselect Spalten der importierten Datensatzes - selectInput - Shiny
- 13. Python vergleichen zwei Spalten einer Liste
- 14. Durchsuchen eines HDF5-Datensatzes
- 15. Sqlite Aktualisieren eines Datensatzes
- 16. Vlookup Vergleichen von 2 Spalten
- 17. Erstellen eines Datensatzes
- 18. Etikettieren eines gestapelten Datensatzes
- 19. Beibehalten eines Datensatzes von SQL-Einfügungen
- 20. Python - Textvergleich von zwei Spalten
- 21. Äquivalent von R/ifelse in Python/Pandas? Zeichenfolge-Spalten vergleichen?
- 22. Aufruf von Spalten des Datensatzes von seinem Index, nicht Name
- 23. Delphi: Analysieren eines Datensatzes mit unbekannter Struktur
- 24. Einfügen nur eines Datensatzes mit CrudRepository
- 25. Fehler beim Löschen eines Datensatzes mit Linq2SQL
- 26. Filtern eines Datensatzes mit mehreren Bedingungen
- 27. zeigt Details eines Datensatzes mit ReactJS
- 28. Visualisierung eines großen 3D-Datensatzes mit Streudiagramm
- 29. Zeichnen eines Datensatzes mit zwei abhängigen Y-Achsen mit Gnuplot
- 30. Bearbeiten eines Datensatzes durch Trennen von Variablen
Dieser SO Post könnte ein guter pl sein ace zu starten - https://stackoverflow.com/questions/25571882/pandas-columns-correlation-with-statistical-significance. ASFAIK müssen Sie diese Buchstaben in eindeutige numerische Werte umwandeln, damit diese Tests funktionieren. – TheF1rstPancake
Kannst du sie nicht einfach überkreuzen mit '' pd.crosstab (df.customer_type, df.sex) ''und siehst, was auftaucht? –
Eine andere Sache, auf die Sie achten müssen, ist, dass Ihre "Sex" -Spalte nicht viel Variation hat. Es wird also wahrscheinlich nicht sehr hilfreich sein. Aber das könnte außerhalb des Bereichs Ihres aktuellen Problems liegen. – TheF1rstPancake