2010-09-16 7 views

Antwort

24

Wenn Sie nicht genügend Daten haben, um Ihren Algorithmus zu trainieren, können Sie die Größe Ihres Trainingssatzes erhöhen, indem Sie (gleichmäßig) zufällig Elemente auswählen und diese duplizieren (mit Ersatz).

35

Nehmen Sie eine Stichprobe der Uhrzeit, an der Sie samstags aufwachen. An manchen Freitagabenden haben Sie ein paar zu viele Getränke, also wachen Sie früh auf (aber gehen Sie zurück ins Bett). An anderen Tagen wachst du zu einer normalen Zeit auf. Andere Tage schlafen Sie in

Hier sind die Ergebnisse:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

Was ist die durchschnittliche Zeit, dass wachst du auf?

Nun ist es 6,8 (Uhr oder 6:48). Eine Berührung früh für mich.

Wie gut ist eine Vorhersage, wenn Sie am nächsten Samstag aufwachen? Können Sie quantifizieren, wie falsch Sie wahrscheinlich sind?

Es ist ein ziemlich kleines Beispiel, und wir sind nicht sicher über die Verteilung des zugrundeliegenden Prozesses, also ist es vielleicht keine gute Idee, standardisierte parametrische statistische Techniken & Dolch; zu verwenden.

Warum nehmen wir nicht eine Stichprobe unserer Probe, und berechnen Sie den Mittelwert und wiederholen Sie dies? Dies wird uns eine Schätzung geben, wie schlecht unsere Schätzung ist.

tat ich dies mehrmals, und der Mittelwert betrug zwischen 5,98 und 7,8

Dies ist die Bootstrap genannt, und es wurde zuerst von Bradley Efron erwähnt 1979

Eine Variante genannt wird Jackknife, wo Sie alle bis auf einen Ihrer Datenmenge probieren, nehmen Sie den Mittelwert und wiederholen. Das Jackknife-Mittel ist 6,8 (wie das arithmetische Mittel) und reicht von 6,4 bis 7,2. Eine andere Variante heißt k-fache Kreuzvalidierung, wo Sie (zufällig) Ihren Datensatz in k gleich große Abschnitte aufteilen, berechnen Sie den Mittelwert aller bis auf einen Abschnitt, und wiederholen Sie k mal. Der 5-fache Kreuzvalidierungsdurchschnitt ist 6,8 und reicht von 4 bis 9.

& dagger; Diese Verteilung ist zufällig normal. Das 95% -Konfidenzintervall des Mittelwerts beträgt 5,43 bis 8,11, ziemlich nah, aber größer als das Bootstrap-Mittel.

+0

Alle kritischen Papiere/Gedanken über mögliche Verzerrung durch Bootstrapping eingeführt? –

+1

Ich würde mir Zeit nehmen, das Original zu lesen: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

Verwandte Themen