2016-10-09 4 views
0

Ich habe einen Datenrahmen wie folgt aus:r - Wie wird mit nicht numerischen Daten klassifiziert?

------------------------------------------------------------------- 
| | Keywords   | Paragraph  | Date  | Decision | 
|===+==================+==================+============+==========| 
| 1 | a; b    | A lot. of words. | 12/15/2015 | TRUE  | 
|---+------------------+------------------+------------+----------| 
| 2 | c; d    | more. words. many| 01/23/2015 | FALSE | 
|---+------------------+------------------+------------+----------| 
| 3 | a; d; c; foo; bar| words, words, etc| 12/13/2015 | FALSE | 
------------------------------------------------------------------- 

Aber mit etwa 1500 Datensätzen.

Ich versuche, die häufigsten Merkmale einer Entscheidung zu finden. Zum Beispiel:

Group 1: Keywords: "a", Paragraph words: ["trouble", "abhorrent"], Date: "12/12/2015", 
     Outcome: FALSE, odds of FALSE Decision: 60% 
Group 2: Keywords: "b", Paragraph words: ["good", "maximum"], Date: "02/02/2015", 
     Outcome: TRUE, odds of TRUE Decision: 30% 

Auch wäre es schön, wenn ich die Chancen auf ein Diagramm, wie diese zeichnen könnte:

| ----- 
60% | |///| 
    | |///|  ----- 
30% | |///|  |\\\| 
    | |///|  |\\\| 
0% +---|---|------|---|--- 
     Group 1 Group 2 

ich glaube, ich bin für Regressionsmodell gesucht, aber alle Beispiele scheinen mit rein numerischen Daten umgehen. Wie kann ich dies mit nicht numerischen Daten erreichen?

Edit: Hier ist ein Link auf die dput Datei auf Google Drive: https://drive.google.com/open?id=0BwrbzZiF0KGtVVZ4Tk1kdDdBZXM

+0

@raw Sicher. Entschuldigung, ich wusste nichts davon. Wird bald aktualisiert. Danke für die Information. –

+0

@rawr Also ich versuche, dput zu verwenden, aber es druckt den gesamten Datenrahmen, obwohl ich ein neues df mit 'head (df)' erstellt habe. Außerdem ist es sehr unordentlich. Benutze ich es richtig? 'dput (head (df))' –

+0

@rawr Wie hänge ich die Datei an diesen Beitrag an? Ich meine, es ist zu groß, um nur hier zu kleben. –

Antwort

1

die Daten mit Ihnen hier vor sich hochgeladen ein einfaches Beispiel:

mod <- glm(Decision ~ Keywords, data = df1, family = "binomial") 

predictions <- predict(mod, df1, "response") 

predictions 
1 2 3 4 5 6 
0.6 0.6 0.6 0.6 0.6 1.0 

Hier ist die Handlung Sie gesucht, wobei die Gruppen durch Keywords definiert sind:

res <- aggregate(predictions, by=list(df1$Keywords), mean) 

barplot(res$x, names.arg = c("Group 1", "Group 2")) 

enter image description here

+0

Danke, ich war auch in der Lage, eine separate Analyse der Variable Digest mit Hilfe dieser Website durchzuführen: http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in -r-5-einfache-Schritte-Sie-sollten-wissen-die-fünf-Haupt-Schritte-für-ein-Wort-Wolke-Verwendung-R-Software erstellen –

+0

Wie kann ich sagen, welche Schlüsselwörter in den Gruppen sind? –

+0

Das können Sie, indem Sie sich das Modellobjekt anschauen ('mod' oder' summary (mod) ') und Sie können die Beschriftungen entsprechend in das Diagramm einfügen. In diesem Fall ist Gruppe 1 "finanziell" und Gruppe 2 ist "Verstöße". –

Verwandte Themen