2017-03-03 5 views
1

Angenommen, für K nächsten Nachbarn Algorithmus haben wir einen ursprünglichen Trainingsdatensatz x1,x2,...,xn und wir testen p1. Nach der Klassifizierung p1, setzen wir p1 in Trainingsdatensatz.Ist es zulässig, vorhergesagte Daten in den Trainingsdatensatz einzugeben?

Der neueste Trainingsdatensatz ist jetzt {x1,x2,....,xn,p1} und wir testen p2 ... und so weiter.

Ich denke, das oben genannte ist ziemlich gegensätzlich, dass wir "falsche" Daten verwendet haben, um unser Programm zu trainieren. Aber ich kann mir keinen Beweis dafür vorstellen, warum wir die "falschen" Daten nicht verwenden können.

+0

können Sie verwenden, was Sie wollen. Aber wird es Sinn machen, ist die Frage. Wenn Sie das vorhergesagte p1 als Training verwenden, bekräftigen Sie, dass das erlernte Modell wahr ist. Und das Hinzufügen von mehr und mehr Vorhersagen im Datensatz wird es nur verstärken. Aber leider wird das weit von den eigentlichen Trainingsdaten entfernt sein. Und Ihr Modell wird schlecht darauf arbeiten –

Antwort

1

Es wird nur das Modell gegenüber dem ursprünglichen Trainingssatz voreingenommener machen, indem die Grenze zwischen den Klassen unter Verwendung seiner eigenen Vorhersage aktualisiert wird. Darüber hinaus macht das Hinzufügen weiterer Beobachtungen zu Ihrem Trainingssatz ohne das Bereitstellen von Grundwahrheitsinformationen den Merkmalsraum dichter und reduziert den Einfluss von K, was zu einer höheren Wahrscheinlichkeit einer Überanpassung führen kann.

Verwandte Themen