Ich habe einen großen Korpus von Meinungen (2500) im Rohtext. Ich würde gerne die scikit-learn-Bibliothek verwenden, um sie in Test-/Train-Sets aufzuteilen. Was könnte der beste Ansatz sein, um diese Aufgabe mit scikit-learn zu lösen? Könnte irgendjemand mir ein Beispiel für das Teilen von Rohtext in Test-/Zugsätzen geben (wahrscheinlich werde ich tf-idf-Darstellung verwenden).Wie teilt man Daten (Rohtext) in Test/Train-Sets mit dem Scikit-Crossvalidierungsmodul auf?
7
A
Antwort
19
Ihre Daten Angenommen ist eine Liste von Strings, das heißt
data = ["....", "...", ]
Dann Sie es in der Ausbildung (80%) und Test (20%) setzt mit train_test_split beispielsweise aufspalten by doing:
from sklearn.cross_validation import train_test_split
train, test = train_test_split(data, train_size = 0.8)
Bevor Sie es hetzen tun, aber lesen those docs durch. 2500 ist kein "großes Korpus" und Sie möchten wahrscheinlich eher eine k-fache Kreuzvalidierung als eine einzelne Holdout-Teilung durchführen.
Verwandte Themen
- 1. Wie kann man Javascript mit Python verbinden, indem man Daten mit dem JSON-Format teilt?
- 2. Wie teilt man Daten von der Zeit?
- 3. Wie teilt man Daten zwischen zwei Komponenten mit Event Emitter?
- 4. Wie teilt man Daten in AngularJS zwischen zwei Modulen?
- 5. Wie man Handler teilt?
- 6. Wie teilt man SFSB Facade auf?
- 7. Wie teilt man Tabellen mit JPA (Eclipselink) auf Datenbanken auf?
- 8. Wie teilt man einen Datenstrom in Pakete auf?
- 9. Wie teilt man einen Datenrahmen auf?
- 10. Wie Rohtext aus PDF-Datei mit Java
- 11. Wie teilt man diese Zeichenfolge mit Python?
- 12. Wie teilt man String für mehrere Zellen in Zellen auf?
- 13. Wie man Daten von einer Ansicht zur anderen teilt?
- 14. Wie man einen String mit Zeilenumbrüchen teilt
- 15. Wie teilt man String in Teilstrings auf iOS?
- 16. Wie teilt man eine Zeichenkette mit "-" Schlüsselwort?
- 17. Wie teilt man eine Zeichenfolge in Actionscript in Zeichengruppen auf?
- 18. Wie teilt man das Zeichen
- 19. Wie teilt man .kube/config?
- 20. Wie teilt man Daten von Spalten in mehr als einer Spalte in oracle10g auf?
- 21. Wie für && als Rohtext in Github suchen
- 22. openCV: Wie teilt man ein Video in eine Bildsequenz auf?
- 23. Wie teilt man ein Array in flüssige Vorlagen auf?
- 24. Wie teilt man lange Zeichenketten in IntelliJ IDEA automatisch auf?
- 25. Wie teilt man den Wert?
- 26. Wie teilt man Kaskadenstufen in dlib Frontalgesichtsdetektor auf?
- 27. Wie teilt man Android-Bildschirm in Boxen?
- 28. Wie teilt man Funktionalität in Rust?
- 29. Wie teilt man eine JavaScript Codebase in Module auf?
- 30. Wie teilt man die Dinge in einer Weintrauben-App auf?
Ich würde gerne eine Stimmungsanalyse in Spanisch machen. Ist das ein richtiger Ansatz, um den Datensatz zu teilen? Ich habe ein Verzeichnis mit 2500 TXT-Dateien (Meinungen). – anon
Wie ich schon sagte, ist 2500 keine große Zahl. Sie sollten also besser eine Kreuzvalidierung durchführen, um Ihre Leistung zu bewerten. Darüber hinaus müssen Sie möglicherweise zuerst einen "endgültigen Testsatz" (z. B. 500 Artikel) trennen, 2000 für die Modellauswahl verwenden (mithilfe der Kreuzvalidierung das beste Modell auswählen), und wenn Sie sich für ein Modell entschieden haben, Überprüfen Sie die Leistung auf dem ursprünglich gehaltenen Testset. Je nach Anzahl der Faktoren können sich Abweichungen ergeben. –