Ich habe die gleiche Frage, die in here gefragt wurde:Kreuzvalidierung und Textkategorisierung
Ich habe eine Frage zu in sklearn
Kreuzvalidierung in Textklassifikation verwendet wird. Es ist problematisch, alle Daten vor der Kreuzvalidierung zu vektorisieren, da der Klassifikator das in den Testdaten aufgetretene Vokabular "gesehen" hätte. Weka
hat gefiltert Klassifikator, um dieses Problem zu lösen. Was ist das sklearn
Äquivalent für diese Funktion? Ich meine, für jede Falte wäre der Feature-Set anders, weil die Trainingsdaten unterschiedlich sind.
Da ich jedoch viel Daten für die Daten zwischen dem Kategorisierungsschritt und dem Klassifizierungsschritt verarbeite, kann ich keine Pipelines verwenden ... und habe versucht, die Kreuzvalidierung von mir selbst als äußere Schleife für das Ganze zu implementieren Prozess ... jede Anleitung dazu, wie ich ziemlich neu sowohl für Python und sickitlearn
Danke .. Dies ist genau das, was ich gesucht habe. – Ophilia
Nur aktualisierten Code hinzufügen! 'von sklearn.model_selection Import KFold' ' Import numpy als np' 'X = np.array ([ "Wissenschaft heute", "Data Science", "Titanic", "Batman"]) #raw Text '' y = np.array ([1, 1, 2, 2]) #categories zB Wissenschaft, Movies' 'kf = KFold (n_splits = 2)' ' für train_index, test_index in kf.split (X): ' ' x_zug, y_zug = X [train_index], y [train_index] ' ' x_test, y_test = X [test_index], y [test_index] ' –