Was ist eine gute Faustregel für die Faktorisierung von Spalten in R?

Gibt es irgendwelche Annahmen, wenn man eine Spalte in R faktorisieren will? Ich frage das, weil ich Zeichenspalten habe, die, wenn sie in Faktoren umgewandelt werden, zu viele Ebenen für Dinge wie randomForest haben würden. Gibt es einen Nachteil, sie als Charaktere zu behalten?Was ist eine gute Faustregel für die Faktorisierung von Spalten in R?

Quelle

2016-04-08 CJava

Normalerweise halte ich meine Variablen lieber als Zeichen und nicht als Faktoren für die meisten Projekte (z. B. lesen, putzen, manipulieren). Normalerweise übertrage ich sie nur auf Faktoren vor der Analyse. So wie ich es kenne, ist der Hauptgrund für die explizite Verwendung von Faktorvariablenspeicherung, die Basisebene in der Analyse explizit zu steuern, wie zum Beispiel das Steuern der ausgelassenen Kategorie in einem linearen Modell mit Dummies.

Es war der Fall (vor einigen Jahren), dass der größte Vorteil, um Variablen als Faktoren zu erhalten, Speicher zu sparen war. Eine Faktorvariable wurde mehr oder weniger als ganzzahliger Vektor gespeichert, der im Vergleich zu einem Zeichenvektor viel weniger Platz in Anspruch nahm, insbesondere wenn es wiederholte Elemente gab. Wie @MichaelChirico unten darauf hingewiesen hat, war dies lange Zeit nicht der Fall (irgendwo um Version 2.8).

Quelle

2016-04-08 19:03:32 lmo

Nicht wirklich wahr, dass sie Speicher sparen, siehe: http://Stackoverflow.com/a/13570765/3576984 – MichaelChirico

Historischer Kontext tut nie weh. – lmo

ja ich stimme auch über den historischen Kontext überein. sehr gepflegte Erklärung. –

Was ist eine gute Faustregel für die Faktorisierung von Spalten in R?

Antwort

Verwandte Themen