2016-04-28 7 views
0

Trainieren eines neuronalen Netzwerks, in dem N Trainingsbeispiele die gleichen Attribute und Klassifizierungen enthalten. Beispiel:Trainiert ein neuronales Netzwerk mit gleichen Trainingsbeispielen schlechte Praxis?

Ausbildung example1 = [1,1,1,1], Klassifizierung = [1]

Ausbildung example2 = [1,1,1,1], Klassifizierung = [1]

Es verschwendet Trainingsstunden mit 'Trainingsbeispiel2', da es nicht zur Gesamtqualität des neuronalen Netzwerks beiträgt.

+0

Das Trainingssatz sollte ein Hinweis auf die Daten sein, die das Netzwerk nach dem Training klassifiziert. Wenn Sie wissen, dass einige der Eingangssignale, die Sie klassifizieren werden, häufiger als andere angezeigt werden, empfiehlt es sich, das Netzwerk stärker auf diese Dateneinträge abzuzielen. Mit anderen Worten, es könnte nicht verschwenderisch sein – jorgenkg

+0

@jorgenkg können Sie näher auf "wean das Netzwerk mehr auf diese Dateneinträge", meinst du eine zusätzliche Bias-Layer verwenden? –

+2

Sagen wir, die echten Daten, die Sie klassifizieren werden, sind '[a, a, a, a, b, c]'. Mit anderen Worten, ein spezifisches Klassifizierungsmuster erscheint eher in den realen Daten. Dann möchten Sie, dass das Netzwerk das Muster "a" wahrscheinlicher klassifiziert. Wenn Ihre realen Daten jedoch ähnlich wie "[a, a, b, b, c, c]" sind, sollte das Trainingssatz auch ca. das gleiche Verhältnis zwischen den verschiedenen Eingabemustern. (Wenn ich den Begriff Eingabemuster verwende, beziehe ich mich auf die Menge von Eingabevektoren, die als dieselbe Klasse klassifiziert werden sollte). – jorgenkg

Antwort

0

Ich glaube, wenn es doesn‘ t schaden Ihrem Lernprozess viel - würde sie in Ihrem Training Set verlassen. Der Grund dafür ist in den folgenden Punkten angegeben:

  1. Normalerweise - der Prozess des Lernens eines neuronalen Netzes hat es wahrscheinlichkeitstheoretische Interpretation. Sie lernen eine bedingte Verteilung P(y|x). In diesem Fall ist es offensichtlich, dass je mehr Lernbeispiele Sie haben, desto genauer die Annäherung ist, die Sie haben werden.
  2. Sehr oft haben Ihre Daten keine funktionale Form, in der y = f(x). In diesem Fall müssen Sie mit Unsicherheit umgehen. In diesem Fall, je mehr Beispiele Sie haben - desto sicherer sind Sie über Ihre Vorhersagen.
  3. In einigen Kommentaren sagte jemand, dass wenn z. Jedes Beispiel tritt zweimal im Datensatz auf, was möglicherweise redundant ist. Aber zu überprüfen, ob Ihre Daten aus einer solchen Verteilung stammen, ist entweder offensichtlich oder zu rechenaufwendig. Du solltest dich also nicht darum kümmern.
0

Ein Beispiel, bei dem es am besten ist, häufige Übungsbeispiele seltener zu verwenden, finden Sie in word2vec. Siehe diesen Link für weitere Informationen.

https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec

Verwandte Themen