2015-05-22 7 views
7

In meinem Problem habe ich sehr große Datenmenge, die aus meinem Gedächtnis ist. Ich würde gerne mein Modell mit Disk-Daten wie HDF5 oder ähnlichem trainieren. Unterstützt sklearn dies oder gibt es eine andere Alternative?Gibt es eine Möglichkeit, ein Sklearn-Modell mit Festplatten-Daten wie HDF5 oder ähnlichem zu trainieren?

+0

Diese Frage setzt voraus, dass prinzipiell alle Modelle trainiert werden können, ohne dass alle Daten im Speicher sind. Ich bezweifle, dass dies der Fall ist. – cel

+1

Dies ist perfekt möglich, zum Beispiel Caffe verwendet db-ähnliche Struktur, um Daten von der Festplatte zu holen, während das Training läuft. – erogol

+0

Ogrisel hat eine Antwort gegeben, aber haben Sie weitere Möglichkeiten gefunden? Ich versuche das Gleiche zu tun. – KobeJohn

Antwort

4

Was Sie fragen, heißt Out-of-Core- oder Streaming-Lernen. Dies ist nur mit einer Teilmenge der scikit-learn-Modelle möglich, die die Methode partial_fit für die inkrementelle Anpassung implementieren.

Es gibt eine example in the documentation. Es gibt kein spezifisches Dienstprogramm, um Modelle speziell an Daten in HDF5 anzupassen, sondern kann dieses Beispiel anpassen, um die Daten von einer externen Datenquelle (z. B. HDF5-Daten auf der lokalen Festplatte oder einer Datenbank über das Netzwerk, z. B. mit dem Pandas SQL-Adapter) zu holen).

Verwandte Themen