2010-02-26 17 views

Antwort

7

Die größte Schwäche eines Brill Taggers ist die Zeit, die für die Trainingsphase benötigt wird (schauen Sie sich die Zeitstempel für ACOPOST here an oder versuchen Sie eine mit NLTK zu implementieren, um eine Idee zu bekommen). Denken Sie daran, dass Sie immer einen Brill-Tagger als letzten Tagger betrachten sollten, der in einer Sequenz von Tagging-Systemen verwendet werden soll (für einfaches Tagging verwende und trainiere ich normalerweise einen Brill-Tagger am Ausgang eines HMM-Taggers). Abgesehen davon, dass die Übungsphase noch länger gemacht wird, führt die Verwendung eines Brill-Taggers im Allgemeinen zu einem sehr großen, normalerweise überlappenden und manchmal "inkorrekten" Regelsatz (d. H. Regeln, die in "echten" Tagkontexten viele korrekte Tags bremsen).

Die größte Stärke eines Brill-Taggers ist die Tatsache, dass sein Modell sinnvoll ist, insbesondere wenn Sie die Regeln in einem allgemein lesbaren Format speichern. Das Modell eines statistischen Taggers manuell zu inspizieren ist mühsam, fehleranfällig und nicht sehr nützlich, während ein Satz von Transformationsregeln nicht nur manuell verstanden und optimiert werden kann, sondern dies kann auch von Leuten ohne vorherige Erfahrung mit NLP durchgeführt werden (in der Tat, ich habe es vor Jahren getan, als einige Studenten eines Sprachprogramms die Regeln bewertet haben, die auf einem brasilianischen portugiesischen Corpus erstellt wurden). In der Tat können Sie das Regelwerk sogar ganz alleine schreiben.

Kurz gesagt, während ein Brill-Tagger als letzter Schritt in einem robusten System von kaskadierenden Taggern nützlich ist, ist es im Allgemeinen nicht die beste Alternative, die man alleine verwenden kann (wenn Sie einen einzelnen Tagger verwenden möchten) schlagen vor, mit einem HMM eins zu gehen). Mein Vorschlag ist, einen Brill-Tagger auf dem getaggten Ausgang eines anderen Taggers zu trainieren und zu verwenden, vorzugsweise ein kombiniertes System, wie zum Beispiel eins zu wählen (dh wenn Sie drei oder vier verschiedene Tagger einrichten, wählen Sie das beste Tag für jedes Token durch ein Wahlsystem und nur dann füttern diese Ergebnisse zu einem Brill-Tagger, der hoffentlich die häufigsten Fehler des vorherigen Systems korrigieren würde).

+0

Hat NLTK Unterstützung für Wahlsysteme? Ich experimentiere gerade mit NLTK-POS-Taggern, verwende aber eine Backoff-Kaskaden-Anordnung. Ich muss noch einen Markov-Tagger hinzufügen. – winwaed

1

Einige Vorschläge zur Verbesserung des Brill's Taggers wurden in den Papers "Unabhängigkeit und Engagement: Annahmen für schnelles Training und Ausführung von regelbasierten POS-Taggern" und "Transformationsbasiertes Lernen auf der Überholspur" vorgestellt. Darüber hinaus bietet das regelbasierte POS- und morphologische Tagging-Toolkit RDRPOSTagger auch Verbesserungen für den Brill-Tagger, bei dem transformationsbasierte Regeln in Form eines binären Entscheidungsbaums gespeichert werden. So erhält RDRPOSTagger eine sehr schnelle Trainings- und Taging-Performance mit höherer Genauigkeit als Brill's. Siehe Ergebnisse here.