Ich möchte roh Datenrahmen in drei Untergruppen aufgeteilt: Zug, Test, ValidierungSplit Datenrahmen in 3 Untergruppen
Ich sehe drei Lösungen, aber Angst, sie sind nicht korrekt und kann Flaschenhals-Effekt
1 Ursache) hinzufügen Wörterbuch mit Schlüssel
my_dict = {'train':raw_df.loc[start:end], 'test':raw_df.loc[start:end],
'val':raw_df.loc[start:end]}
2) schaffen drei Datenrahmen
train_df = df.loc[start:end]
test_df = df.loc[start:end]
val_df = df.loc[start:end]
3) fügen Sie neue Spalte mit einer von drei zufälligen Werten zufällig
df['train/test/val'] = pd.Series('train', index=df.index)
Außerdem wird das Hinzufügen Datenrahmen im Wörterbuch Ursache: bottle_neck Wirkung der Vorteile von Datenrahmen ist Hilfe im Wörterbuch oder Listen Leistung zu verlieren? neue Spalten in der Theorie Hinzufügen nimmt Dimension der Daten neuen Datenrahmen erstellen Ich denke, das Schlimmste Variante ist weil es Tonnen von Speicher
Durch Hinzufügen einer neuen Spalte wird die Dimension nicht vergrößert, da Sie sie nicht in einen Lernprozess einbeziehen. Wenn Sie sich Sorgen um den Platz machen (obwohl ich nicht glaube, dass viel Platz benötigt wird), können Sie die Schnittpunkte einfach speichern (zB 0, 25, 70, 100) und bei Bedarf die Scheiben des Datenrahmens verwenden (df [0: 25], df [25:70] usw.). Wenn Sie sie in drei verschiedene Datenfelder aufteilen, erhöht dies auch nicht die Speichernutzung. – ayhan