Ich habe einen großen Datensatz und möchte den Datensatz nach dem Zufallsprinzip in 70% Zug, 25% Test und 5% Dev aufteilen. Wie kann ich das in Python mit scikit-learn tun?Wie wird ein Datensatz nach dem Zufallsprinzip in Trainingssatz, Testsatz und Entwicklersatz in Python aufgeteilt?
Ich frage mich, ob wir dies mit der Funktion sklearn.cross_validation.train_test_split (* Arrays, ** Optionen) wie im Beispiel im folgenden Link tun?
http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html
Ich glaube nicht, dass wir einen direkten Weg oder API haben, das gleiche zu tun. Sie können jedoch eine doppelte Aufteilung vornehmen. Verwenden Sie zuerst train_test_split mit 30% als Test. Jetzt auf diese neuen Testdaten, machen Sie einen weiteren Split mit Testgröße als 5%, um die Dev-Aufteilung zu erhalten. – pmaniyan
Vielleicht hilft eine Funktion random.shuffle? Als nächstes können Sie einfach Ihren Satz in 0,7, 0,95 etc. schneiden. – fafnir1990