2012-04-13 3 views
0

Ich habe gerade ein Video angeschaut, in dem der Viterbi-Algorithmus verwendet wurde, um zu bestimmen, ob bestimmte Wörter in einem Satz Substantive/Verben/Adjs usw. sein sollen. Sie verwendeten Übergangs- und Emissionswahrscheinlichkeiten, zum Beispiel die Wahrscheinlichkeit, dass das Wort 'Time' verwendet wurde wie ein Verb bekannt ist (Emission) und die Wahrscheinlichkeit, dass ein Substantiv auf ein Verb führt (Transition).Wo finden Sie Viterbi-Algorithmus-Übergangswerte für die Verarbeitung natürlicher Sprache?

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu (Video)

Wie kann ich einen guten Datensatz von Übergangs- und Emissionswahrscheinlichkeiten für diesen Anwendungsfall finden?

Oder sogar nur ein einziges Beispiel mit allen Wahrscheinlichkeiten angezeigt, möchte ich realistische Zahlen in einer Demonstration verwenden.

Antwort

1

Normalerweise Implementierungen von Hidden-Markov-Modellen (HMM) kann nicht nur die für die Kennzeichnung Viterbi-Algorithmus durchführt, sondern auch ein Algorithmus zum Zuge das Modell (zum Beispiel des Baum-Welch-Algorithmus) verwendet. Dann ist der Weg zum Erhalten des Modells (d. H. Der Satz von Übergangs- und Emissionswahrscheinlichkeiten) zu der Trainingsalgorithmus auf einem geeigneten Trainingskorpus (wie der PennTreebank).

Mir ist keine frei verfügbare, handelsübliche HMM-basierte Implementierung eines POS-Taggers bekannt, die mit einem vortrainierten Modell geliefert wird, das leicht überprüft werden kann. Ein Ansatz, der einem HMM in vielerlei Hinsicht ähnlich ist, ist jedoch das Bedingte Zufallsfeld (CRF). Die CRFTagger erstellt an der Tohoku University, Japan, scheint mit einem vortrainierten Modell für Englisch zu kommen (siehe die Datei model/model.txt nach dem Herunterladen und Entpacken). Die Datei ist für Menschen lesbar, aber um die Details des Formats zu verstehen, müssen Sie möglicherweise mit den Autoren Kontakt aufnehmen.

Verwandte Themen