2017-02-27 5 views
1

Ich habe ein Multi-Klassen-Lernproblem, für das ich verschiedene Methoden wie logistische Regression, Entscheidungsbäume, Multilayer Perzeptron etc. versuchen werde.Maschinelles Lernen, bestimmte Beobachtungen hervorheben?

Die Beobachtungen in der Datei haben ein Attribut, das ein Index von 1 ist -5 definiert, wie wichtig es ist, dass eine bestimmte Beobachtung richtig klassifiziert wird (Index 1 sehr wichtig, 5 überhaupt nicht wichtig). Meine Fragen sind:

Frage 1: Wie sollte ich zu den Modellen betonen, dass die niedrigeren Indexbeobachtungen größere Wichtigkeit haben? Ich denke daran, diese Beobachtungen zu duplizieren, damit die Modelle besser zu den niedrigeren Indexbeobachtungen passen, welche anderen Ansätze sind möglich?

Frage 2: Mit welchen Leistungsbewertungskriterien kann ich die Modelle finden, die diese Beobachtungen mit niedrigem Index gut vorhersagen? (Appart aus der Berechnung der Verteilung der Indizes unter den korrekt vorhergesagt Instanzen.)

Grüße,

Antwort

0

Antwort 1: Presenting die wichtigen Muster der Ausbildung häufiger eingestellt ist der Standardansatz für diese. Wenn Ihr Trainingsalgorithmus etwa eine Lernrate hat (zum Beispiel wenn Sie backpropagation verwenden), könnten Sie diesen Parameter auch für die Muster mit hoher Priorität erhöhen.

Antwort 2: Ich würde einen gewichteten mittleren quadratischen Fehler verwenden und den Fehlern der Muster hoher Priorität ein größeres Gewicht geben.

+0

In Bezug auf die Antwort für die zweite Frage, sehe ich nicht, wie mittlere quadratische Fehler für ein Klassifizierungsproblem verwendet werden soll? – Josi

+0

@Josi: Ich ging davon aus, dass (1) Sie die Klassifikation ans überwachen (2), dass die Zellen kontinuierliche Ausgabewerte haben. Wenn dies nicht der Fall ist, könnte ein anderes Fehlermaß sinnvoller sein. –

+0

Die erste Annahme ist wahr, aber nicht die zweite. Die Ausgabe ist diskret, so dass die Ausgabe nur ein Klassenlabel ist, bei dem nur ein Label korrekt ist und alle anderen falsch sind. Ich habe mir ein paar Methoden wie F-Score und Hamming-Verlust angeschaut, aber es fällt mir schwer, mich zu entscheiden. Was ich suche, ist ein Leistungsbewertungskriterium, das ist: - Etwas komplementär zur Klassifizierungsgenauigkeit - Ziemlich einfach - Eine Art von Motivation, warum ich diese Methode verwenden sollte – Josi

Verwandte Themen