2017-08-02 4 views
1

Wenn wir einen Klassifikator der NLP-Anwendung mit Daten bewerten möchten, die mit zwei Annotatoren kommentiert sind, und sie sind nicht vollständig auf der Annotation, wie ist das Verfahren? Das heißt, wenn wir die Klassifikator-Ausgabe nur mit dem Teil der Daten vergleichen sollten, auf den sich die Kommentatoren geeinigt haben? oder nur eine der Annotator-Daten? oder die beiden getrennt und berechnen dann den Durchschnitt?Auswertung NLP-Klassifikator mit annotierten Daten

Antwort

0

Die Mehrheit zwischen Annotatoren ist üblich. Auseinandersetzungen werden ebenfalls ausgetragen.

Here ist ein Blog-Beitrag zum Thema:

Angenommen wir eine Reihe von Annotatoren haben und wir haben keine perfekte Einigung über Gegenstände. Was machen wir? Nun, in der Praxis neigen maschinelle Lernverfahren dazu, (1) die Beispiele ohne Zustimmung wegzuwerfen (z. B. die RTE-Evals, einige biocreative benannte Entity-Evals, etc.), oder (2) gehen mit dem Majoritäts-Label (alles andere I kennen). In jedem Fall werfen wir eine große Menge an Informationen weg, indem wir das Etikett auf künstliche Sicherheit reduzieren. Sie können dies ziemlich einfach mit Simulationen sehen, und Raykar et al. zeigte es mit echten Daten.

Was für Sie richtig ist, hängt stark von Ihren Daten und davon ab, wie die Annotatoren nicht übereinstimmen. Für den Anfang, warum nicht verwenden Sie nur Elemente, denen sie zustimmen und sehen, was dann vergleichen Sie das Modell mit denen, die sie nicht einverstanden waren?

Verwandte Themen