2016-06-15 6 views
0

Ich habe ein Problem mit Etiketten. Ich führe eine hierarchische Clusteranalyse durch und muss Bereiche meiner Daten kennzeichnen. Dies ist ein Teil meines Codes für eine bestimmte Variable, wo ich versuchen, einige Stufen zu beschriften:So ermitteln Sie einen numerischen Bereich für ein bestimmtes Faktor-Klassifizierungsetikett in R

comisiones[["Monto.Pago.Credito"]] <- ordered(cut(comisiones[["Monto.Pago.Credito"]], c(100.96, 382.30, 866.80, 1040, 11500)), labels = c("min", "1er Quartil", "3er Quartil", "Max")) 

ich diese Struktur aus einem Beispiel des Buches „DATA MINING AND BUSINESS ANALYTICS MIT R“ erhalten (Johannes Ledolter, 2013).

Dieser Code schneidet einige meiner Daten ab und verwandelt sie in NULL-Werte. Das ist mein Problem.

Antwort

0

in cut(...), verwenden Sie das Argument include.lowest = TRUE, d.h.

ordered(cut(comisiones[["Monto.Pago.Credito"]], c(100.96, 382.30, 866.80, 1040, 11500), include.lowest = TRUE), labels = c("min","1er Quartil", "3er Quartil", "Max")) 
0

Ich glaube, Sie können Ihr Problem lösen, indem Sie untere und obere Werte, die leicht über/unter Ihrem minimalen und maximalen Wert sind, zum zweiten Argument hinzufügen.

Hier ist ein reproduzierbares Beispiel:

cut(1:10, c(3,7,8)) 
[1] <NA> <NA> <NA> (3,7] (3,7] (3,7] (3,7] (7,8] <NA> <NA> 
Levels: (3,7] (7,8] 

die unteren und oberen Werte hinzufügen:

> cut(1:10, c(0,3,7,8,11)) 
[1] (0,3] (0,3] (0,3] (3,7] (3,7] (3,7] (3,7] (7,8] (8,11] (8,11] 
Levels: (0,3] (3,7] (7,8] (8,11] 
Verwandte Themen