2014-04-04 11 views
11

Ich versuche ein Klassifikationsproblem zu lösen. Es scheint, dass viele klassische Ansätze einem ähnlichen Paradigma folgen. Trainieren Sie also ein Modell mit einem Trainingssatz, und verwenden Sie es, um die Klassenbezeichnungen für neue Instanzen vorherzusagen.Feedback oder Verstärkung beim maschinellen Lernen verwenden?

Ich frage mich, ob es möglich ist, einen Feedback-Mechanismus in das Paradigma einzuführen. In der Steuerungstheorie ist die Einführung einer Rückkopplungsschleife ein effektiver Weg, um die Systemleistung zu verbessern.

Momentan ist mir klar, dass wir zuerst mit einer Reihe von Instanzen beginnen und ein Modell mit ihnen trainieren. Jedes Mal, wenn das Modell eine falsche Vorhersage trifft, fügen wir die falsche Instanz in den Trainingssatz ein. Das ist anders als das Trainings-Set blind zu vergrößern, weil es mehr Targeting ist. Dies kann als eine Art negatives Feedback in der Sprache der Kontrolltheorie angesehen werden.

Gibt es Forschungsergebnisse zum Feedback-Ansatz? Könnte jemand etwas Licht werfen?

+1

Schauen Sie nach oben, das ist im Grunde, was Sie beschreiben. –

+2

Sollte es zu http://stats.stackexchange.com/ migriert werden? – sashkello

+0

smwikipedia: Ich bin nach genau dem gleichen Problem. http://stackoverflow.com/questions/36068292/incorporating-user-feedback-in-a-ml-model. Möchten Sie Ihre Ergebnisse teilen? –

Antwort

1

Ich habe eine solche Rückmeldung für jede Maschine-Learning-Projekt, an dem ich arbeitete. Es ermöglicht, mit weniger Daten zu trainieren (daher ist das Training schneller) als durch zufällige Auswahl von Daten. Die Modellgenauigkeit wird ebenfalls schneller verbessert als bei Verwendung von zufällig ausgewählten Trainingsdaten. Ich arbeite an Bildverarbeitungsdaten (Computer Vision), so dass eine andere Art von Auswahl, die ich mache, das Hinzufügen falscher (falscher) Clusterdaten ist, anstatt jede einzelne falsche Daten hinzuzufügen. Das liegt daran, dass ich davon ausgehe, dass ich immer einige Fehler haben werde. Meine Definition für positive Daten ist also, wenn sie im selben Bereich des Bildes gruppiert sind.

+0

Ich denke nicht, dass dies für jede maschinelle Lernmethode funktionieren wird. Die Tatsache, dass es bei fehlgeschlagenen Datenpunkten trainiert wird, ist besser nicht offensichtlich (vielleicht fängt es an allen Punkten an, die außerhalb der Menge liegen). Ihre Erfahrung ist nur ein Datenpunkt, bitte unterstützen Sie sie durch einige akademische Forschungsreferenzen.Erwähnen Sie auch, welche genauen Methoden Sie verwendet haben, da das Verhalten auffallend anders sein könnte. Sonst finde ich es zweifelhaft, da meine Erfahrung sagt, dass das weniger funktioniert als es nicht, aber ich bin nur ein weiterer Datenpunkt ... – sashkello

+1

Wenn jede Antwort auf SO von akademischen Forschungsreferenzen unterstützt werden müsste, gäbe es nur eine Handvoll akzeptierter Antworten. Ich habe diese Technik auf OCR, Bildähnlichkeit und Fußgängererkennung angewendet. Ich habe GentleBoost benutzt. Bei der Bearbeitung von Bildern ist die Anzahl der negativen Samples nahezu unendlich, während die Anzahl der positiven Samples ziemlich begrenzt ist. Daher ist die Verwendung von zufällig ausgewählten Daten aus einer Unzahl von Möglichkeiten ineffizient. Die Trainingszeit wird länger und die Genauigkeit wird geringer sein. – rold2007

+0

Nicht jede Antwort auf SO sollte durch eine Referenz unterstützt werden. Das sollte. Ansonsten ist es nur eine Meinung von einer Person. Also, Sie haben diese Technik für drei Projekte verwendet, erwähnen Sie dies in der Antwort, welche Probleme genau damit geholfen haben. "Jedes maschinelle Lernprojekt, an dem ich gearbeitet habe, ist sehr breit angelegt. Wenn Sie an drei gearbeitet haben, sind das sehr wenig Daten für eine solche Behauptung. Ich habe an> 20 gearbeitet, aber ich weiß einfach nicht, was die Antwort ist, weil es immer anders für mich ist. Ja, ich könnte etwas falsch machen, was ein noch besserer Grund für Sie ist, zu spezifizieren, was genau Sie getan haben, damit die Antwort nützlich wird. – sashkello

7

Es gibt zwei Bereiche der Forschung, die in den Sinn kommen.

Die erste ist Reinforcement Learning. Dies ist ein Online-Lernparadigma, mit dem Sie Feedback erhalten und Ihre Richtlinie (in diesem Fall Ihren Klassifikator) aktualisieren können, während Sie die Ergebnisse beobachten.

Die zweite ist active learning, wo der Klassifikator Beispiele aus einem Pool von nicht klassifizierten Beispielen auswählen kann, um beschriftet zu werden. Der Schlüssel ist, dass der Klassifikator die Beispiele für die Markierung wählt, die am besten seine Genauigkeit verbessern, indem er schwierige Beispiele unter der aktuellen Klassifikatorhypothese auswählt.

1

Ich sah this paper vor einiger Zeit, die zu sein scheint, was Sie suchen.

Sie sind im Grunde Modellierung Modellierungsprobleme wie Markov decision processes und Lösen mit der ACLA algorithm. Das Papier ist viel detaillierter als das, was ich hier schreiben könnte, aber letztendlich bekommen sie Ergebnisse, die die multilayer perceptron übertreffen, also sieht das wie eine ziemlich effiziente Methode aus.

Verwandte Themen