Ich gehe von Stata zu R über. Wenn ich in Stata Faktorstufen (zB - 0 und 1) zu (M und F) beschreibe, würden 0 und 1 so bleiben, wie sie sind. Darüber hinaus ist dies für die lineare lineare Regression von Variablen in den meisten Programmen wie Excel und SPSS erforderlich.Faktorstufen sind standardmäßig auf 1 und 2 in R | Dummy-Variable
Allerdings habe ich bemerkt, dass R Standard Faktor Ebenen auf 1,2 statt 0,1. Ich weiß nicht, warum R dies tut, obwohl die Regression intern (und korrekt) 0 und 1 als Faktorvariable annimmt. Ich würde jede Hilfe schätzen. Ich glaube, 1 und 2 s sind Verweise auf den Faktor Ebene
sex<-c(0,1,0,1,1)
sex<-factor(sex,levels = c(1,0),labels = c("F","M"))
str(sex)
Factor w/ 2 levels "F","M": 2 1 2 1 1
es, dass Faktorstufen 1 und 2 zurückgesetzt werden jetzt scheint:
Hier ist, was ich getan habe:
Versuch # 1 Hier. Ich habe jedoch die ursprünglichen Werte, d. H. 0s und 1s, verloren.
Try2:
sex<-c(0,1,0,1,1)
sex<-factor(sex,levels = c(0,1),labels = c("F","M"))
str(sex)
Factor w/ 2 levels "F","M": 1 2 1 2 2
Ditto. Meine 0 und 1 sind jetzt 1 und 2. Ziemlich überraschend. Warum passiert dies.
Try3 Jetzt wollte ich sehen, ob 1s und 2s irgendeine negative Regression haben. So, hier ist was ich getan habe:
Hier ist, was meine Daten wie folgt aussieht:
> head(data.frame(sassign$total_,sassign$gender))
sassign.total_ sassign.gender
1 357 M
2 138 M
3 172 F
4 272 F
5 149 F
6 113 F
myfit<-lm(sassign$total_ ~ sassign$gender)
myfit$coefficients
(Intercept) sassign$genderM
200.63522 23.00606
Also, es stellt sich heraus, dass die Mittel korrekt sind. Beim Ausführen der Regression verwendete R 0 und 1 als Dummies.
Ich habe andere Threads auf SO überprüft, aber sie sprechen meist darüber, wie R-Codes Variable Variablen, ohne mir zu sagen, warum. Stata und SPSS erfordern im Allgemeinen, dass die Basisvariable "0" ist. Also dachte ich darüber nach zu fragen.
Ich würde mich über irgendwelche Gedanken freuen.
Dank Zheyuan für Ihre Hilfe, aber ich bin mir nicht ganz sicher, warum R dies tut, da die meisten Statistiken Bücher/Gemeinschaft über Dummy-Variablen (0 Codierung usw.) lehren. Als Anfänger war das verwirrend für mich. Ich denke, das Endergebnis ist, dass R sich von Stata und anderen Tools unterscheidet. Wir müssen es einfach akzeptieren. – watchtower
@watchtower Der wichtigste Punkt, an den man sich erinnert, ist, dass die Darstellung eines Faktors in einem Datenrahmen unabhängig davon ist, wie er in einer Modellmatrix behandelt wird. Dummy-Variablen sind nur eine Möglichkeit, einen Faktor zu kodieren; Siehe "Kontraste" für die verfügbaren Optionen. –
Danke Zheyuan. Das ist mir jetzt klar. Ich schätze es. – watchtower