2017-11-02 3 views
0

Ich bin neu in der linearen Regression, also hoffe ich, dass Sie mir bei der Interpretation der Ausgabe einer multiplen linearen Regression mit zwei kategorischen Prädiktorvariablen helfen können Interaktionsterm.Wie Koeffizienten und p-Werte in multipler linearer Regression mit zwei kategorischen Variablen und Interaktion zu interpretieren sind

Ich habe die folgende lineare Regression:

lm (H1A1c ~ Vokale * Speaker, data = Daten)

Vokale und Lautsprecher sind beide kategorische Variablen. Vokal kann "hauchig", "modal" oder "knarrend" sein und es gibt vier verschiedene Lautsprecher (F01, F02, M01, M02). Ich möchte sehen, ob eine Kombination dieser beiden Kategorien die Werte für H1A1c vorhersagen kann.

Meine Ausgabe ist dies: Output of lm

Bitte korrigieren Sie mich, wenn ich falsch bin, aber ich denke, dass wir aus dieser Ausgabe sehen können, dass die Beziehung zwischen den meisten meiner Variablen können nicht als linear charakterisiert werden. Was ich nicht wirklich verstehe, ist, wie man den ersten p-Wert interpretiert. Als ich gegoogelt habe, habe ich festgestellt, dass alle anderen p-Werte sich auf die Beziehung des jeweiligen Koeffizienten beziehen und auf was sich dieser Koeffizient bezieht. Z.B. der p-Wert in der dritten Zeile bezieht sich auf die Beziehung des Koeffizienten der dritten Zeile zu der ersten, d. h. 23.1182-9.6557. Was ist jedoch mit dem p-Wert des ersten Koeffizienten? Es kann keine lineare Beziehung geben, wenn keine Beziehung besteht? Worauf bezieht sich dieser p-Wert?

Vielen Dank im Voraus für Ihre Antworten!

Antwort

0

Der erste p-Wert (Intercept) gibt an, wie wahrscheinlich der y-Achsenabschnitt Ihrer angepassten Linie Null ist (durch den Ursprung gehen). Da der p-Wert in Ihrem Ergebnis weit unter 0,05 liegt, können Sie sagen, dass der y-Achsenabschnitt sicher nicht Null ist.

Andere p-Werte sind unterschiedlich zu interpretieren. Ihre Interpretation ist richtig, dass sie eine Vorstellung davon geben, ob die Koeffizienten der Variablen, die sie repräsentieren, wahrscheinlich Null sind oder nicht.

der p-Wert in der dritten Zeile bezieht sich auf das Verhältnis des Koeffizienten der dritten Zeile zu dem ersten, also 23.1182-9.6557

(-9,6557) bedeutet, dass im Durchschnitt, Der vorhergesagte Wert von H1A1c wird 9.6557 Einheiten niedriger sein, wenn GlottalContext = knirschen (dh GlottalContextcreaky = 1) verglichen mit GlottalContext = gehauchten (da hauchdünn ist hier Ihre Referenzkategorie), wobei alle anderen Prädiktoren unverändert bleiben. Dies ist offensichtlich, wenn der entsprechende p-Wert weniger als 0,05 ist, was, wie ich sehe, für GlottalContextcreaky der Fall ist.

(Wenn ich annehmen würde, dass H1A1c eine kontinuierliche Variable ist, bin ich mir nicht sicher, ob die Auswahl einer linearen Regression zur Vorhersage von H1A1c der beste Weg wäre, da beide Prädiktoren kategorisch sind andere Algorithmen z. B. transformieren Ihre abhängige Variable in kategorisch und führen eine binäre/multinomiale logistische Regression oder einen Entscheidungsbaum durch)

Verwandte Themen