2016-09-12 3 views
1

Ich muss auf einem 10GB-Trainingsdatensatz vorausschauende Modellierung durchführen, die nicht in den Speicher (8 GB) passen kann. Ich denke daran, mehrere Stichproben des großen Datensatzes zu machen, und auf jeder Teilmenge spalte ich, um Training und Validierung zu erzeugen, um das Modell zu erstellen. Gibt es bessere Möglichkeiten, das Problem zu lösen? Vielen Dank!Sampling-Modellierung in großen Datensätzen

Antwort

1

Laden Sie die Daten in Chunks, und optimieren Sie dann mit stochastischem Gradientenabfall bei zufälligen Batches der Daten, bis der Chunk aufgebraucht ist. Holen Sie den nächsten Brocken und setzen Sie den Gradientenabstieg fort. Dies ist ein nahezu perfekter Anwendungsfall für SGD.

Wenn Ihr Dataset eine Reihenfolge hat, sollten Sie die Reihenfolge der Chunks in Relation zum Gradient-Descending verschieben. Praktisch mag das keinen Unterschied machen (aber natürlich kann es das). Wenn Sie daran interessiert sind, warum es wichtig sein könnte, denken Sie durch die Gradientenmathematik.

Verwandte Themen