Ich versuche ein Trainings- und Testset aus einem Pandas-Datenrahmen zu erstellen. Wenn ich laufen:Sklearn StratifiedShuffleSplit mit Pandas
sss = StratifiedShuffleSplit(df['event'], n_iter=3, test_size=0.2)
bekomme ich den Fehler:
ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of labels for any class cannot be less than 2.
Dies ist jedoch nicht der Fall, weil, wenn ich laufen:
df.event.value_counts()
ich:
irrelevant 5030
event 394
Irgendeine Idee, was könnte dieses Problem verursachen?
Die Warnung kann nicht reproduziert werden. Aus Neugier, was ist 'len (df)'? –
5424. Ich habe gerade mit einem völlig anderen csv versucht und es funktioniert gut, ich bin nicht sicher, was es ist über dieses df, das das Problem verursacht. – GNMO11
Sieht aus wie eine leere Zeile in der CSV-Datei – GNMO11