2016-04-25 7 views
0

Ich wurde in die Naive Bayes Klassifizierungsmethode (Multinomial NB) eingeführt, mit Bezug darauf, wie es von Michael Sipser in seinem Buch "The Theory of Computation" beschrieben wird.Algorithmus verstehen - multinomiale naive Bayes

ich im Algorithmus für Training und Anwendung multinomial NB, präsentiert sich wie folgt beschreiben suchen:

enter image description here

jedoch zu einem Verlust Ich komme, wenn bestimmte Aspekte des Algorithmus zu interpretieren. Zum Beispiel in TRAINMULTINOMIALNB (C, D) on line 6:

  • Was genau CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS (D, C) tun?

Bisher verstehe ich es wie folgt. Angenommen, wir haben drei - 3 - Dokumente in der Klasse "Filme" und "Lieder":

MOVIES 
    DOC1 = "big fish" 
    DOC2 = "big lebowski" 
    DOC3 = "mystic river" 

SONGS 
    DOC1 = "purple rain" 
    DOC2 = "crying in the rain" 
    DOC3 = "anaconda"  

Nach der Anwendung CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS (D, C), würden Sie dann mit gelassen werden, sagen Strings:

String concatenatedMovies = "big fish big lebowski mystic river" 
String concatenatedSongs = "purple rain crying in the rain anaconda" 

Ist das richtig? Jede Hilfe, um dies zu verstehen, wird sehr geschätzt.

Antwort

1

Am Ende möchten Sie in der Lage sein, einigen Text basierend auf Inhalt zu klassifizieren. Sie möchten also sagen können, ob seine Songs oder Filme usw.
Um dies mit Bayes (oder andere Methode) zu tun, verwenden Sie zuerst Ihre Zugdaten, um ein Modell zu bauen.

Zuerst priors (Dokumente in Klasse/Gesamtdokument) in Zeile 5 erstellen. Dann berechnen Sie conditional probabilities (Wahrscheinlichkeit des Wortes Fisch angesichts der Klasse MOVIES, Wahrscheinlichkeit von Wort Regen gegeben die Klasse SONGS), Zeilen 7-10. Sie teilen einfach das Vorkommen des Begriffs mit der Gesamtzahl der Begriffe in der Klasse (plus etwas Glättung -> +1). Deshalb kontrainieren Sie sich - um alle Vorkommen eines Begriffs in einer Klasse zählen zu können.
Am Ende, stecken Sie diese Werte in Bayes Formel und können einige nichtknown Dokument als Filme, Lieder, ... Weitere wiki

kategorisieren
Verwandte Themen