Ich versuche, eine Stimmungsanalyse für ein Dataset durchzuführen. Es gibt jedoch kein Corpus, in dem mein Klassifikator trainiert werden kann, der dem zu analysierenden Dataset ähnelt. Meine Frage lautet wie folgt: Kann ich eine zufällig ausgewählte Teilmenge dieser Daten für Trainings-/Validierungsphasen verwenden und dann den trainierten Klassifizierer für die Analyse des größeren Datensatzes verwenden? Ich plane, etwas Variabilität einzuführen, indem ich dem Trainingssatz Datenpunkte hinzufüge, die dem Anwendungsdatensatz ähneln, aber nicht aus diesem Satz. Ist das ein gültiger Ansatz?Auswählen eines Trainingssatzes aus dem größeren Anwendungssatz
0
A
Antwort
1
Was Sie suchen, ist das Standardverfahren der Kreuzvalidierung. Während der Kreuzvalidierung teilen Sie Ihre Daten auf (nehmen wir an) 80% -20% Trainings-Testdaten und machen 5-10 (abhängig von der Größe der Daten, die Sie haben) verschiedene Splits. Daher würde ich vorschlagen, dass Sie eine Teilmenge der Daten behalten und dann eine Kreuzvalidierung für diese Teilmenge durchführen. Dies ist der optimale Weg, um Ihr Modell zu trainieren.
Verwandte Themen
- 1. Auswählen eines Attributs aus dem angeklickten href
- 2. Auswählen eines Datums aus dem Kalender mit Selenium
- 3. Verwalten eines größeren JavaScript-Projekts
- 4. Mails per Post aus dem Posteingang auswählen
- 5. für jede Zeile eines größeren Auswahlabfrage eine Tabelle oder ein Array auswählen
- 6. Bildposition innerhalb eines größeren Bildes finden
- 7. Auswählen eines Python-Webframeworks
- 8. Auswählen eines Entwurfsmusters
- 9. Android Auswählen eines bestimmten Dateispeicherorts
- 10. linq - aus in auswählen
- 11. Objekt aus Listenansicht auswählen
- 12. Auswählen eines Elements mit dem nächsten gemeinsamen Vorfahren
- 13. Verwenden von Xpath zum Auswählen eines Elements nach dem anderen
- 14. Auswählen eines InstallShield-Projekttyps
- 15. Auswählen eines guten Wörterbuchschlüssels
- 16. Auswählen Kinder eines Objekts
- 17. Android App verschwindet nach dem Auswählen eines Fotos aus der Galerie
- 18. Auswählen nach Monat eines Felds
- 19. Auswählen eines bestimmten Elements innerhalb eines div?
- 20. Auswählen von MYSQL-Daten aus dem PHP-Array
- 21. Auswählen und Kopieren des Seitenbereichs aus dem Arbeitsblatt
- 22. jedes zweite Element aus dem Array auswählen lambda Verwendung
- 23. Wie kann ich mehrere Werte aus dem Kontrollkästchen auswählen?
- 24. Problem mit dem Stock Browser Fotos aus der Galerie auswählen
- 25. Auswählen einer Option aus dem Kontextmenü im Windows-Browser (VBA)
- 26. Auswählen aus einer Gridview
- 27. Aus der Website auswählen?
- 28. Zufälliges Auswählen eines Elements aus einem Swift-Array ohne Wiederholung
- 29. Zufälliges Auswählen eines Elements aus einer gewichteten Liste
- 30. Datenbankentwurf zum Auswählen eines Hauptelements aus einer Liste
Danke für die Antwort. Ich dachte, Kreuzvalidierung wäre auch der richtige Ansatz. Nur um dies zu verdeutlichen, schlagen Sie vor, dass ich eine Kreuzvalidierung für meine Teilmenge durchführe und den Rest meiner Daten als "unbekannte" Datenmenge verwende, die ich analysieren möchte. –
Genau. Führen Sie keine Kreuzvalidierung für das gesamte Set durch, da Sie sonst Ihr Modell überanpassen. – rpd
Dachte so. Vielen Dank! –