Ich muss auf einem 10GB-Trainingsdatensatz vorausschauende Modellierung durchführen, die nicht in den Speicher (8 GB) passen kann. Ich denke daran, mehrere Stichproben des großen Datensatzes zu machen, und auf jeder Teilmenge spalte ich, um Training und Validierung zu erzeugen, um das Modell zu erstellen. Gibt es bessere Möglichkeiten, das Problem zu lösen? Vielen Dank!Sampling-Modellierung in großen Datensätzen
1
A
Antwort
1
Laden Sie die Daten in Chunks, und optimieren Sie dann mit stochastischem Gradientenabfall bei zufälligen Batches der Daten, bis der Chunk aufgebraucht ist. Holen Sie den nächsten Brocken und setzen Sie den Gradientenabstieg fort. Dies ist ein nahezu perfekter Anwendungsfall für SGD.
Wenn Ihr Dataset eine Reihenfolge hat, sollten Sie die Reihenfolge der Chunks in Relation zum Gradient-Descending verschieben. Praktisch mag das keinen Unterschied machen (aber natürlich kann es das). Wenn Sie daran interessiert sind, warum es wichtig sein könnte, denken Sie durch die Gradientenmathematik.
Verwandte Themen
- 1. Ember-Erstickung bei großen Datensätzen
- 2. hclust() in R in großen Datensätzen
- 3. Spatial Matching von großen Datensätzen
- 4. Verbinden von zwei großen Datensätzen in RxJava
- 5. MS Access/SQL Beitritt zu großen Datensätzen
- 6. Training Tensorflow RNN mit großen Datensätzen
- 7. Anwenden von XGBOOST mit großen Datensätzen
- 8. DC und crossfilter mit großen Datensätzen
- 9. Erstellung von Dichtekarten mit großen geokodierten Datensätzen?
- 10. Paginierung mit einer großen Anzahl von Datensätzen
- 11. verschachtelt für Schleifen mit großen Datensätzen
- 12. Leistung von Firebase mit großen Datensätzen
- 13. Umgang mit großen Datensätzen mit datengetriebenen Tests
- 14. Apache Ignite CEP Implementierung mit großen Datensätzen
- 15. Importieren von großen Datensätzen in Kerndaten, die Beziehungen in Swift
- 16. Gemeinsames Auftreten von Werten in großen Datensätzen suchen
- 17. Löschen einer großen Anzahl von Datensätzen dauert sehr lange
- 18. PyQt QTableView prohibitiv langsam beim Scrollen mit großen Datensätzen
- 19. SQLite Problem beim Einfügen einer großen Anzahl von Datensätzen
- 20. Extrahieren von großen Datensätzen aus einem Datenrahmen pyspark
- 21. Django (?) Wirklich langsam mit großen Datensätzen nach einigen Python-Profiling
- 22. Eine Spalte von langen und großen Datensätzen bereinigen
- 23. Arbeiten mit großen (Dutzende von Millionen von Zeilen) Datensätzen
- 24. Fuzzy-Match zwischen einer großen Anzahl von Datensätzen
- 25. Wie man incremental Load mit großen Datensätzen behandelt ssis
- 26. Angular Performance Probleme mit großen Datensätzen und Prime ng Datagrid
- 27. So entfernen Sie bestimmte Zeichen aus großen Datensätzen
- 28. Finden Sie einen Datensatz aus einer großen Anzahl von Datensätzen
- 29. Entpacken und verketten das gleiche Feld aus mehreren Datensätzen in großen Abfrage
- 30. Was ist der beste Umgang mit großen Mengen von RealmObject-Datensätzen in RealmListView