2017-08-31 1 views
-1

Ich habe versucht, den EM-Algorithmus auf Daten mit den Standard-Parameter in WEKA zu laufen und ich bin nicht in der Lage zu verstehen, wie man es interpretieren?Wie interpretiere ich die Ausgabe von EM auf weka

 
    === Run information === 

Scheme:  weka.clusterers.EM -I 100 -N -1 -X 10 -max -1 -ll-cv 1.0E-6 -ll-iter 1.0E-6 -M 1.0E-6 -K 10 -num-slots 1 -S 100 
Relation:  Chronic_Kidney_Disease-weka.filters.unsupervised.attribute.Remove-R12-weka.filters.unsupervised.attribute.Remove-R3-weka.filters.unsupervised.attribute.Remove-R3-4-weka.filters.unsupervised.attribute.Remove-R5-10,12-20 
Instances: 800 
Attributes: 6 
       age 
       bp 
       rbc 
       pc 
       hemo 
       class 
Test mode: evaluate on training data 


=== Clustering model (full training set) === 


EM 
== 

Number of clusters selected by cross validation: 6 
Number of iterations performed: 100 


       Cluster 
Attribute   0  1  2  3  4  5 
       (0.29) (0.22) (0.38) (0.02) (0.04) (0.05) 
=================================================================== 
age 
    mean   53.5869 65.0962 46.44 51.3652 56.1297 10.939 
    std. dev. 12.4505 7.9718 15.546 3.7759 10.2604 6.7004 

bp 
    mean   77.3114  79.7 71.4394 115.138 92.1235 66.5196 
    std. dev. 11.7858 12.1008 8.4722 31.4278 5.8351 10.0583 

rbc 
    normal  185.8341 165.6585 306.8285 14.0588 7.3129 32.3071 
    abnormal  45.4643 13.3988 1.0652 3.3197 29.7885 6.9635 
    [total]  231.2984 179.0574 307.8937 17.3785 37.1015 39.2706 
pc 
    normal  152.713 147.8797 306.8886 13.0467 1.9999 31.4721 
    abnormal  78.5854 31.1776 1.005 4.3319 35.1016 7.7985 
    [total]  231.2984 179.0574 307.8937 17.3785 37.1015 39.2706 
hemo 
    mean   10.6591 11.7665 15.0745 9.5796 8.1499 12.0494 
    std. dev.  2.1313 1.1677 1.3496 2.5159 2.1512 1.5108 

class 
    ckd   230.1835 177.972 7.2109 16.3651 36.1014 38.167 
    notckd  1.1149 1.0853 300.6828 1.0134  1 1.1036 
    [total]  231.2984 179.0574 307.8937 17.3785 37.1015 39.2706 


Time taken to build model (full training data) : 13.21 seconds 

=== Model and evaluation on training set === 

Clustered Instances 

0  218 (27%) 
1  196 (25%) 
2  302 (38%) 
3  12 ( 2%) 
4  34 ( 4%) 
5  38 ( 5%) 


Log likelihood: -11.18988 

Bitte helfen Sie, die Ausgabe zu verstehen.

Vielen Dank im Voraus

Antwort

0

Es ist Ihnen sechs Cluster gegeben, mit 27%, 25%, 38%, 2%, 4% und 5% der Daten in jeweils. (Was ist> 100%, so ist gerundet).

Es ist am 6. nach der Kreuzvalidierung angekommen (Training auf einigen, Testen auf den anderen für mehrere Läufe).

Der Mittelwert und die Standardabweichung jedes Attributs für die Elemente in jedem Cluster werden angegeben.

Die Log-Wahrscheinlichkeit ist ein Maß dafür, wie gut die Cluster sind - das Training versuchte, dies zu minimieren. Es wird verwendet, um zu vergleichen, welcher der möglichen Cluster besser ist und nicht viel für sich selbst bedeutet.

Verwandte Themen