Stanford CRFClassifier Leistung Auswertung Ausgang

Ich befolge diese FAQ https://nlp.stanford.edu/software/crf-faq.shtml für das Training meiner eigenen Klassifikator und ich bemerkte, dass die Leistung Auswertung Ausgabe nicht mit den Ergebnissen übereinstimmt (oder zumindest nicht in der Art, wie ich es erwarte). Insbesondere dieser AbschnittStanford CRFClassifier Leistung Auswertung Ausgang

CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1

ich TP erwarten, dass alle Instanzen sein, wo das vorhergesagte Etikett das goldene Etikett angepasst, FP alle Instanzen zu sein, wo MYLABEL vorhergesagt wurde, aber das goldene Label war O, FN alle Instanzen zu sein wo O wurde vorhergesagt, aber die goldene war MYLABEL.

Wenn ich diese Zahlen selbst aus der Ausgabe des Programms berechnen, bekomme ich völlig andere Zahlen ohne Bezug zu dem, was das Programm druckt. Ich habe das mit verschiedenen Testdateien versucht. Ich benutze Stanford NER - v3.7.0 - 2016-10-31

Fehle ich etwas?

Quelle

2017-10-25 user1170883

Die F1-Scores sind über Entitäten, nicht über Labels.

Beispiel:

(Joe, PERSON) (Smith, PERSON) (went, O) (to, O) (Hawaii, LOCATION) (., O).

In diesem Beispiel gibt es zwei mögliche Einheiten:

Joe Smith PERSON 
Hawaii  LOCATION

Entities erstellt werden, indem alle benachbarten Token mit dem gleichen Etikett nehmen. (Es sei denn, Sie verwenden ein komplizierteres BIO-Beschriftungsschema; BIO-Schemata haben Tags wie I-PERSON und B-PERSON, um anzugeben, ob ein Token der Anfang einer Entität ist, usw.).

Quelle

2017-10-26 05:27:52 StanfordNLPHelp

Ich verstehe das. Meine Frage betrifft die Leistungsbewertung. Nehmen wir ein einfaches Beispiel - Joe ist ein Junge. Nehmen wir an, die vorhergesagten Entitäten sind (Joe, PERSON) (ist, O) (a, O) (Junge, PERSON). Das sollte 1 TP 1FP melden, oder? Das ist nicht, was ich in den berichteten TP, FP, FN beobachte. – user1170883

Ja, so sollte der Rückruf 100% sein und die Genauigkeit sollte 50% betragen. – StanfordNLPHelp

Wie viele Tokens sind in Ihren Bewertungsdaten enthalten? – StanfordNLPHelp

Stanford CRFClassifier Leistung Auswertung Ausgang

Antwort

Verwandte Themen