Ich befolge diese FAQ https://nlp.stanford.edu/software/crf-faq.shtml für das Training meiner eigenen Klassifikator und ich bemerkte, dass die Leistung Auswertung Ausgabe nicht mit den Ergebnissen übereinstimmt (oder zumindest nicht in der Art, wie ich es erwarte). Insbesondere dieser AbschnittStanford CRFClassifier Leistung Auswertung Ausgang
CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1
ich TP
erwarten, dass alle Instanzen sein, wo das vorhergesagte Etikett das goldene Etikett angepasst, FP
alle Instanzen zu sein, wo MYLABEL
vorhergesagt wurde, aber das goldene Label war O
, FN
alle Instanzen zu sein wo O
wurde vorhergesagt, aber die goldene war MYLABEL
.
Wenn ich diese Zahlen selbst aus der Ausgabe des Programms berechnen, bekomme ich völlig andere Zahlen ohne Bezug zu dem, was das Programm druckt. Ich habe das mit verschiedenen Testdateien versucht. Ich benutze Stanford NER - v3.7.0 - 2016-10-31
Fehle ich etwas?
Ich verstehe das. Meine Frage betrifft die Leistungsbewertung. Nehmen wir ein einfaches Beispiel - Joe ist ein Junge. Nehmen wir an, die vorhergesagten Entitäten sind (Joe, PERSON) (ist, O) (a, O) (Junge, PERSON). Das sollte 1 TP 1FP melden, oder? Das ist nicht, was ich in den berichteten TP, FP, FN beobachte. – user1170883
Ja, so sollte der Rückruf 100% sein und die Genauigkeit sollte 50% betragen. – StanfordNLPHelp
Wie viele Tokens sind in Ihren Bewertungsdaten enthalten? – StanfordNLPHelp