2016-06-08 4 views
1

Ich baue einen Naive Bayes Klassifikator für zwei Kategorien, pos und neg. Ich möchte, dass der Klassifikator einen Satz als pos klassifiziert, wenn er bestimmte Wörter enthält, und als neg, wenn er diese Wörter nicht enthält.Naive Bayes Klassifikator: Muss die Korpusgröße für jede Kategorie gleich sein?

Mein Korpus für pos sind 518 Sätze, die diese Wörter enthalten. Meine Frage: Wie groß muss das Corpus für Neg sein?

In dem Film-Corpus von NLTK enthalten beide Kategorien die gleiche Menge an Textdateien. Aber dieser Klassifikator lernt auch die negativen Wörter, nicht wahr? Es interessiert mich wirklich nur, dass der Klassifikator bestimmte Wörter erkennt, die zur Pos-Kategorie gehören, mir sind die Wörter in der Neg-Kategorie egal.

Also, ist es wichtig, dass beide Korpora 518 Textdateien enthalten?

Antwort

0

Es ist nicht notwendig, dass die beiden Kategorien die gleiche Größe haben.

+0

Vielen Dank für Ihre Antwort. Hast du irgendwo eine Quelle dafür? Oder woher weißt du das sicher? – NotSmartButLucky

Verwandte Themen