2017-04-11 4 views
0

Ich bin verwirrt, wie NLC funktioniert. Meine Erwartung ist, dass, wenn es darum gebeten wird, Text zu klassifizieren, dass es keine Beziehung oder Trainingsdaten haben sollte, um daraus zu lernen, keine Ergebnisse oder Ergebnisse mit sehr niedrigen Konfidenzwerten zurückgeben sollte.Natürlicher Sprachklassifizierer gibt Klassifikationen für nicht trainierte Objekte zurück

Ich habe ein Modell mit einer Reihe von Trainingsdaten trainiert, und wenn ich versuche, Text außerhalb der Trainingsdaten zu klassifizieren, erhalte ich Ergebnisse mit hohen Konfidenzwerten (~ 60%).

Hier ist ein Beispiel für meine Trainingsdaten:

foo,1,2,3,4 
bar,1,2,3,4 
baz,1,2,3,4 

Wenn ich versuche, den Text zu klassifizieren „Dies sollte nicht existieren“ Ich erhalte ein hohes Vertrauen, dass dieser Text ist „1“.

Ist meine Annahme richtig, dass ich in diesem Fall Werte zurückgegeben werden sollte? Passe ich die Daten an, um foo, bar und baz falsch zu klassifizieren? Wenn nicht, was sollte ich vom NLC Service erwarten?

Antwort

0

Stellen Sie sich vor, Sie haben 3 Eimer und Sie müssen eine Münze in einen werfen. Jeder Eimer hat 33,3% Änderungen, um die Münze zu erhalten. Dasselbe passiert mit dem Natural Language Classifier Service. Es ist trainiert, Eingabetext in vordefinierte Klassen zu klassifizieren.

Wenn Sie einen Klassifikator mit 3 Klassen erstellen und versuchen, Text zu klassifizieren, der nicht in den Trainingsdaten enthalten war, klassifiziert NLC Ihren Satz immer noch in eine der drei Klassen, die Sie definiert haben. Wenn Ihre Ausgabe 60% beträgt, erhalten die anderen beiden Buckets die restlichen 40%.

Manchmal könnten Sie eine hohe Punktzahl erhalten, und das ist normal, wenn Sie Klassen haben, die sehr unterschiedlich sind.

Verwandte Themen