2017-02-21 2 views
-1

Ich mache ein Projekt auf Premier League Data. Ich dachte mir, ich würde mit einer einfachen Regression beginnen (regress finish wins), die Liga-Finish bei Gewinnen zurückentwickeln. Der angegebene Koeffizient ist -.95. Ich denke, das ist aus, so dass ich regress finish auf losses. Der angegebene Koeffizient ist +.95. Offensichtlich ist das nicht korrekt, mehr Siege führen nicht dazu, dass Sie in der Tabelle niedriger werden. Meine Daten für finish sind wie erwartet, ein Wert von 1 für den Champion und ein Wert von 20 für das schlechteste Team. Meine Daten für Gewinne sind auch logisch, je mehr Sie gewinnen, desto höher wird Ihr Wert sein. Die besseren Teams haben vielleicht 20 Siege und die schlechteren Teams 8. Das sind die Werte, die sie bekommen.Lineare Regressionskoeffizienten das genaue Gegenteil von erwartet und falsch. Eine Erhöhung der Gewinne in einer Einheit führt zu einer Verringerung der Liga um 0,95 Einheiten.

Ich denke, Stata hat meine Absichten irgendwie umgekehrt. Ist es der Meinung, dass ein höherer Wert für Gewinne schlecht ist? Ich gehe davon aus, dass ich denke, dass ich sie nach den insgesamt gewonnenen Spielen rangiere, nicht nach der tatsächlichen Anzahl der gewonnenen Spiele. Wie behebe ich das?

+0

Wenn die letzte Liga Position ist 1 = oben, 2 = Sekunde und so weiter, dann ist ein niedrigerer Wert besser. Ich würde also erwarten, dass die Gewinne negativ mit der Ligaposition korrelieren. –

+0

Es ist mein Verständnis einer Regressionsausgabe ist, dass der Koeffizient neben der unabhängigen Variable, in diesem Fall gewinnt, ist die Einheit erhöhen oder verringern in der abhängigen Variable, in diesem Fall "fertig" für jede 1 Einheit Erhöhung der unabhängigen Variable , Gewinnt. Also würde ich nicht erwarten, dass es negativ korreliert http://stats.idre.ucla.edu/stata/output/regression-analysis-2/ – harrison

+0

Mehr Gewinne werden ein Team höher auf den Tisch verlassen, was wir normalerweise ein nennen würden HÖHERE Liga-Position, aber wenn Sie die Liga-Positionen als 1 = Top usw. bezeichnen, wird es tatsächlich einen niedrigeren Wert bedeuten. Also ist die Korrelation umgekehrt. Es liegt nur daran, wie wir die Liga-Positionen bezeichnen. –

Antwort

1

Der Koeffizient fällt negativ aus, weil die Liga-Endpositionen markiert sind.

Da die beste Position, d. H. Der erste Platz, als 1 gezählt wird, und die niedrigeren Positionen mit steigenden Werten (2, 3 ...), ist eine höhere/bessere Liga-Position tatsächlich mit einem niedrigeren Wert verbunden.

Als Ergebnis wird erwartet, dass eine Mannschaft mit einer HÖHEREN Anzahl von Siegen einen GERINGEN Wert ihrer Liga-Position hat.

Daher wird die Korrelation der Anzahl der Siege und Liga-Position voraussichtlich negativ sein.

damit umgehen, können Sie entweder:

  • eine neue Variable für die Fertigstellung erstellen, die so angeordnet wird, dass eine bessere Position in der Liga auf einen höheren Wert entspricht. Der einfachste Weg dazu wäre etwa X=21-F, wenn es 20 Teams gibt und die Liga-Position F ist.
  • Akzeptieren Sie, dass die Korrelation negativ ist, aber stellen Sie sicher, dass Sie sie später korrekt interpretieren.
Verwandte Themen