Was sind die Schwächen und Stärken des Brill Tagger? Können Sie einige mögliche Verbesserungen für den Tagger vorschlagen?Transformationsbasiertes Wort-zu-Wort-Tagging (Brill Tagging)
Antwort
Die größte Schwäche eines Brill Taggers ist die Zeit, die für die Trainingsphase benötigt wird (schauen Sie sich die Zeitstempel für ACOPOST here an oder versuchen Sie eine mit NLTK zu implementieren, um eine Idee zu bekommen). Denken Sie daran, dass Sie immer einen Brill-Tagger als letzten Tagger betrachten sollten, der in einer Sequenz von Tagging-Systemen verwendet werden soll (für einfaches Tagging verwende und trainiere ich normalerweise einen Brill-Tagger am Ausgang eines HMM-Taggers). Abgesehen davon, dass die Übungsphase noch länger gemacht wird, führt die Verwendung eines Brill-Taggers im Allgemeinen zu einem sehr großen, normalerweise überlappenden und manchmal "inkorrekten" Regelsatz (d. H. Regeln, die in "echten" Tagkontexten viele korrekte Tags bremsen).
Die größte Stärke eines Brill-Taggers ist die Tatsache, dass sein Modell sinnvoll ist, insbesondere wenn Sie die Regeln in einem allgemein lesbaren Format speichern. Das Modell eines statistischen Taggers manuell zu inspizieren ist mühsam, fehleranfällig und nicht sehr nützlich, während ein Satz von Transformationsregeln nicht nur manuell verstanden und optimiert werden kann, sondern dies kann auch von Leuten ohne vorherige Erfahrung mit NLP durchgeführt werden (in der Tat, ich habe es vor Jahren getan, als einige Studenten eines Sprachprogramms die Regeln bewertet haben, die auf einem brasilianischen portugiesischen Corpus erstellt wurden). In der Tat können Sie das Regelwerk sogar ganz alleine schreiben.
Kurz gesagt, während ein Brill-Tagger als letzter Schritt in einem robusten System von kaskadierenden Taggern nützlich ist, ist es im Allgemeinen nicht die beste Alternative, die man alleine verwenden kann (wenn Sie einen einzelnen Tagger verwenden möchten) schlagen vor, mit einem HMM eins zu gehen). Mein Vorschlag ist, einen Brill-Tagger auf dem getaggten Ausgang eines anderen Taggers zu trainieren und zu verwenden, vorzugsweise ein kombiniertes System, wie zum Beispiel eins zu wählen (dh wenn Sie drei oder vier verschiedene Tagger einrichten, wählen Sie das beste Tag für jedes Token durch ein Wahlsystem und nur dann füttern diese Ergebnisse zu einem Brill-Tagger, der hoffentlich die häufigsten Fehler des vorherigen Systems korrigieren würde).
Einige Vorschläge zur Verbesserung des Brill's Taggers wurden in den Papers "Unabhängigkeit und Engagement: Annahmen für schnelles Training und Ausführung von regelbasierten POS-Taggern" und "Transformationsbasiertes Lernen auf der Überholspur" vorgestellt. Darüber hinaus bietet das regelbasierte POS- und morphologische Tagging-Toolkit RDRPOSTagger auch Verbesserungen für den Brill-Tagger, bei dem transformationsbasierte Regeln in Form eines binären Entscheidungsbaums gespeichert werden. So erhält RDRPOSTagger eine sehr schnelle Trainings- und Taging-Performance mit höherer Genauigkeit als Brill's. Siehe Ergebnisse here.
- 1. Tagging-Systeme
- 2. Mercurial Tagging/Branching Strategie
- 3. Scalable Database Tagging Schema
- 4. Cocoa/OSX-Tagging-Benutzeroberfläche
- 5. POS-Tagging in Scala
- 6. Tagging neuesten Release?
- 7. Tagging-Schema für AppEngine
- 8. POS-Tagging in deutschen
- 9. Tagging Abfrage mit group_concat
- 10. automatische Dokumente Tagging bezogen
- 11. Amazon SQS Tagging
- 12. POS-Tagging mit spaCy
- 13. TeamCity Cloud Agent Tagging
- 14. Laravel Tagging System
- 15. Django Tagging select_related
- 16. VIM und benutzerdefinierte Tagging
- 17. Tagging und Rechtschreibfehler
- 18. Tagging-Schnittstellen in Java
- 19. Automatischer Tagging-Algorithmus
- 20. Tagging/Encoding Pointers
- 21. Sitecore - Hierarchisches Tagging
- 22. iOS: Tagging-Fehler
- 23. Dockerhub Automated Builds Tagging
- 24. Tagging in PHP und SQL
- 25. Git-Tagging und Schienen gemfile
- 26. Benutzerdefinierte POS-Tagging mit spacy
- 27. Tagging Dateisystem anstelle von Verzeichnissen?
- 28. Rails Tagging und Tag-Liste
- 29. Tagging-System für Job-Plattform
- 30. Best Rails Tagging Plugin/Gem
Hat NLTK Unterstützung für Wahlsysteme? Ich experimentiere gerade mit NLTK-POS-Taggern, verwende aber eine Backoff-Kaskaden-Anordnung. Ich muss noch einen Markov-Tagger hinzufügen. – winwaed