2017-07-18 5 views
0

Ich habe 2 Datenrahmen. Jeder Datenrahmen enthält 64 Spalten, wobei jede Spalte 256 Werte enthält. Ich muss diese 2 Datenrahmen für statistische Signifikanz vergleichen.Vergleichen von zwei mehrspaltigen Datenrahmen für statistische Signifikanz

Ich kenne nur die Grundlagen der Statistik. Was ich getan habe, ist p-Wert für alle Spalten für jeden Datenrahmen zu berechnen. Dann vergleiche ich den p-Wert jeder Spalte des ersten Datenrahmens mit dem p-Wert jeder Spalte mit dem zweiten Datenrahmen. EX: p-Wert der 1. Spalte des 1. Datenrahmens bis p-Wert der 1. Spalte des 2. Datenrahmens.

Dann erkläre ich, welche Spalten signifikant unter 2 Datenrahmen sind.

Gibt es einen besseren Weg, dies zu tun. Ich benutze Python.

Antwort

0

Um ehrlich zu sein, ist die Art, wie Sie es tun, nicht so, wie es sein sollte. Lassen Sie mein Highlight einige Punkte, die man immer im Auge behalten sollte, wenn solche Analysen die Durchführung:

1.) Hypothese erste

Ich schlage vor, zu stark zu vermeiden alles gegen alles zu testen. Diese Art der explorativen Datenanalyse wird wahrscheinlich einige signifikante Ergebnisse liefern, aber es ist auch wahrscheinlich, dass Sie in einer multiple comparisons problem enden. In einfachen Worten: Sie haben so viele Tests, dass die Chance, etwas Signifikantes zu sehen, das tatsächlich nicht ist, stark erhöht wird (siehe auch Type I and Type II errors).

2.) Der p-Wert ist nicht die ganze Magie

Zu sagen, dass Sie den p-Wert für alle Spalten berechnet sagen nicht, welche testen Sie verwendet haben. Der p-Wert ist nur ein "Werkzeug" aus mathematischen Statistiken, das von vielen Tests verwendet wird (z. B. Korrelation, t-Test, ANOVA, Regression usw.). Ein signifikanter p-Wert zeigt an, dass die beobachtete Differenz/Beziehung statistisch relevant ist (d. H. Ein systematischer und kein zufälliger Effekt).

3.) Betrachten wir Probe und Effektgröße

Je nachdem, welche testen Sie verwenden, ist der p-Wert auf die Probengröße, die Sie empfindlich sind. Je größer Ihre Stichprobengröße ist, desto wahrscheinlicher ist es, einen signifikanten Effekt zu finden. Wenn Sie beispielsweise zwei Gruppen mit jeweils 1 Million Beobachtungen vergleichen, können die geringsten Unterschiede (die auch zufällige Artefakte sein können) signifikant sein. Es ist daher wichtig, auch einen Blick auf die Effektgröße zu werfen, die Ihnen sagt, wie groß das beobachtete tatsächlich ist (z. B. r für Korrelationen, Cohens d für t-Tests, partielles eta für ANOVAs etc.).

ZUSAMMENFASSUNG

Also, wenn Sie hier einige echte Hilfe bekommen wollen, schlage ich vor, einen Code zu schreiben und konkreter, was (1) Ihre Forschungsfrage ist, (2) spezifizieren, die Sie Tests verwendet, und (3) wie Ihr Code und Ihre Ausgabe aussieht.

Verwandte Themen