Gibt es irgendwelche Annahmen, wenn man eine Spalte in R faktorisieren will? Ich frage das, weil ich Zeichenspalten habe, die, wenn sie in Faktoren umgewandelt werden, zu viele Ebenen für Dinge wie randomForest haben würden. Gibt es einen Nachteil, sie als Charaktere zu behalten?Was ist eine gute Faustregel für die Faktorisierung von Spalten in R?
Antwort
Normalerweise halte ich meine Variablen lieber als Zeichen und nicht als Faktoren für die meisten Projekte (z. B. lesen, putzen, manipulieren). Normalerweise übertrage ich sie nur auf Faktoren vor der Analyse. So wie ich es kenne, ist der Hauptgrund für die explizite Verwendung von Faktorvariablenspeicherung, die Basisebene in der Analyse explizit zu steuern, wie zum Beispiel das Steuern der ausgelassenen Kategorie in einem linearen Modell mit Dummies.
Es war der Fall (vor einigen Jahren), dass der größte Vorteil, um Variablen als Faktoren zu erhalten, Speicher zu sparen war. Eine Faktorvariable wurde mehr oder weniger als ganzzahliger Vektor gespeichert, der im Vergleich zu einem Zeichenvektor viel weniger Platz in Anspruch nahm, insbesondere wenn es wiederholte Elemente gab. Wie @MichaelChirico unten darauf hingewiesen hat, war dies lange Zeit nicht der Fall (irgendwo um Version 2.8).
- 1. Was ist eine gute Faustregel-Gleitkommavergleichsmethode?
- 2. Positive Matrix-Faktorisierung in R
- 3. Faustregel für @property Atomity?
- 4. Faustregel für die Einstellung von GAE-Front-End-Instanzklassen
- 5. Was ist eine gute Heuristik für Tweets?
- 6. Was ist eine gute Praxis für die Abhängigkeitsinjektion in Ruby?
- 7. Was ist eine gute Auszeichnungssprache für Tests?
- 8. Was ist eine gute Matrixmanipulationsbibliothek für C?
- 9. Was ist eine gute Möglichkeit, Zeile für Zeile in R zu lesen?
- 10. Was ist eine gute IDE für die Codierung NASM?
- 11. R - Problemschleife über einen Datenrahmen und Faktorisierung von Variablen
- 12. Was ist eine gute Ressource für das Lernen von XNA?
- 13. Was ist eine gute Alternative für openinviter in Django
- 14. Was für eine gute Indexlänge für eine MySQL-Textspalte?
- 15. Was ist eine gute Namenskonvention für Klassen in einer Vererbungskette?
- 16. Was ist eine gute Einstellung für noCompressionUserAgents in Tomcat?
- 17. Was ist eine gute Templating-Engine für eine .NET-Konsolenanwendung?
- 18. Was ist eine gute Versionskontrolle für eine Mac-Umgebung?
- 19. Was ist eine gute Namenskonvention für eine Lookup Map/Hash?
- 20. Was ist eine empfohlene R-Schnittstelle für die Perl-Integration?
- 21. Was ist eine gute, erschwingliche "Knopf" -Bibliothek?
- 22. Was ist eine gute Sprache für webbasierte Spiele?
- 23. Faktorisierung von großen Zahlen
- 24. Was ist eine gute Jsp IDE
- 25. Was ist eine gute Plattform für die Entwicklung von Web-Services in C++?
- 26. Was ist die Standardmethode für die Methode p.adjust in R?
- 27. Was ist eine gute "mobile" .NET-Datenbank, die LINQ unterstützt?
- 28. Was ist eine gute Multiplattform Vektor Grafikbibliothek für C/C++?
- 29. Was ist eine gute Metapher für Dependency Injection?
- 30. Was ist eine gute Datensammlung für ein Pferderennen?
Nicht wirklich wahr, dass sie Speicher sparen, siehe: http://Stackoverflow.com/a/13570765/3576984 – MichaelChirico
Historischer Kontext tut nie weh. – lmo
ja ich stimme auch über den historischen Kontext überein. sehr gepflegte Erklärung. –