vor kurzem stieß ich auf diesen Begriff, aber wirklich keine Ahnung, worauf es sich bezieht. Ich habe online gesucht, aber mit wenig Gewinn. Danke.Was sind die Bootstrapped-Daten im Data Mining?
Antwort
Wenn Sie nicht genügend Daten haben, um Ihren Algorithmus zu trainieren, können Sie die Größe Ihres Trainingssatzes erhöhen, indem Sie (gleichmäßig) zufällig Elemente auswählen und diese duplizieren (mit Ersatz).
Im maschinellen Lernen ist Bootstrapping iteratives Training auf einem bekannten Set. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
Nehmen Sie eine Stichprobe der Uhrzeit, an der Sie samstags aufwachen. An manchen Freitagabenden haben Sie ein paar zu viele Getränke, also wachen Sie früh auf (aber gehen Sie zurück ins Bett). An anderen Tagen wachst du zu einer normalen Zeit auf. Andere Tage schlafen Sie in
Hier sind die Ergebnisse:.
[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]
Was ist die durchschnittliche Zeit, dass wachst du auf?
Nun ist es 6,8 (Uhr oder 6:48). Eine Berührung früh für mich.
Wie gut ist eine Vorhersage, wenn Sie am nächsten Samstag aufwachen? Können Sie quantifizieren, wie falsch Sie wahrscheinlich sind?
Es ist ein ziemlich kleines Beispiel, und wir sind nicht sicher über die Verteilung des zugrundeliegenden Prozesses, also ist es vielleicht keine gute Idee, standardisierte parametrische statistische Techniken & Dolch; zu verwenden.
Warum nehmen wir nicht eine Stichprobe unserer Probe, und berechnen Sie den Mittelwert und wiederholen Sie dies? Dies wird uns eine Schätzung geben, wie schlecht unsere Schätzung ist.
tat ich dies mehrmals, und der Mittelwert betrug zwischen 5,98 und 7,8
Dies ist die Bootstrap genannt, und es wurde zuerst von Bradley Efron erwähnt 1979
Eine Variante genannt wird Jackknife, wo Sie alle bis auf einen Ihrer Datenmenge probieren, nehmen Sie den Mittelwert und wiederholen. Das Jackknife-Mittel ist 6,8 (wie das arithmetische Mittel) und reicht von 6,4 bis 7,2. Eine andere Variante heißt k-fache Kreuzvalidierung, wo Sie (zufällig) Ihren Datensatz in k gleich große Abschnitte aufteilen, berechnen Sie den Mittelwert aller bis auf einen Abschnitt, und wiederholen Sie k mal. Der 5-fache Kreuzvalidierungsdurchschnitt ist 6,8 und reicht von 4 bis 9.
& dagger; Diese Verteilung ist zufällig normal. Das 95% -Konfidenzintervall des Mittelwerts beträgt 5,43 bis 8,11, ziemlich nah, aber größer als das Bootstrap-Mittel.
Alle kritischen Papiere/Gedanken über mögliche Verzerrung durch Bootstrapping eingeführt? –
Ich würde mir Zeit nehmen, das Original zu lesen: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –
- 1. Was ist die beste Data-Mining-Methode für die Fahrzeugsuche?
- 2. Google Data Mining-Tool
- 3. Groß Data Mining mit clojure
- 4. Open Source Data Mining Software
- 5. Data Mining Open-Source-Tools
- 6. Vergleich von Data Mining-Algorithmen
- 7. Data Mining-Engines und Frameworks?
- 8. Web Scraping, Screen Scraping, Data Mining Tipps?
- 9. Tools für Data Mining handgeschriebenen HTML
- 10. Qualitative Datenanalyse mit Data-Mining-Techniken
- 11. Branchenbenchmarks zur Bewertung von Data-Mining-Tools
- 12. Data Mining Stadt und Stadt Namen
- 13. Twitter Data Mining: Degrees of Separation
- 14. Data Mining-Protokolle zum Lokalisieren eines Fehlers
- 15. Wie bezieht sich BI auf Data Mining?
- 16. Informationen aus Daten abrufen - Data Mining praktische Techniken
- 17. Was sind "Meta-Data Design Principles"?
- 18. SparkR - Erstellen und Testen DataFrames für Data Mining
- 19. Was sind die "neuen Hashfunktionen" im Kuckuckshashing?
- 20. Data Mining: Clustering von nominalen Attributen durch DBSCAN algo
- 21. Business Intelligence: Data Mining mit MS SQL Server?
- 22. Wo kann ich Daten finden, um Data Mining-Techniken anzuwenden?
- 23. Was sind die Werte?
- 24. Cryptocoins Mining Gewinnberechnung verstehen
- 25. Was sind die Konsolenfarbwerte
- 26. Text Mining in R
- 27. Data Mining/BI/Analytics/ML: Kann eine Person mit mathematischer Herausforderung in dieses Feld einsteigen?
- 28. Was sind die japanischen Leerzeichen?
- 29. Data Mining, Statistics, Collective Intelligence und AI Algorithms Bücher und Programmierressourcen
- 30. Was sind die .ini-Dateien im Ordner /etc/php5/conf.d?
ist es nicht sehr hilfreich, nur einen Link zu Wikipedia bereitzustellen. es ist ziemlich einfach, auf eigene Faust zu finden :) –