2016-07-27 24 views
0

Ich versuche, eine Stimmungsanalyse für ein Dataset durchzuführen. Es gibt jedoch kein Corpus, in dem mein Klassifikator trainiert werden kann, der dem zu analysierenden Dataset ähnelt. Meine Frage lautet wie folgt: Kann ich eine zufällig ausgewählte Teilmenge dieser Daten für Trainings-/Validierungsphasen verwenden und dann den trainierten Klassifizierer für die Analyse des größeren Datensatzes verwenden? Ich plane, etwas Variabilität einzuführen, indem ich dem Trainingssatz Datenpunkte hinzufüge, die dem Anwendungsdatensatz ähneln, aber nicht aus diesem Satz. Ist das ein gültiger Ansatz?Auswählen eines Trainingssatzes aus dem größeren Anwendungssatz

Antwort

1

Was Sie suchen, ist das Standardverfahren der Kreuzvalidierung. Während der Kreuzvalidierung teilen Sie Ihre Daten auf (nehmen wir an) 80% -20% Trainings-Testdaten und machen 5-10 (abhängig von der Größe der Daten, die Sie haben) verschiedene Splits. Daher würde ich vorschlagen, dass Sie eine Teilmenge der Daten behalten und dann eine Kreuzvalidierung für diese Teilmenge durchführen. Dies ist der optimale Weg, um Ihr Modell zu trainieren.

+0

Danke für die Antwort. Ich dachte, Kreuzvalidierung wäre auch der richtige Ansatz. Nur um dies zu verdeutlichen, schlagen Sie vor, dass ich eine Kreuzvalidierung für meine Teilmenge durchführe und den Rest meiner Daten als "unbekannte" Datenmenge verwende, die ich analysieren möchte. –

+0

Genau. Führen Sie keine Kreuzvalidierung für das gesamte Set durch, da Sie sonst Ihr Modell überanpassen. – rpd

+0

Dachte so. Vielen Dank! –

Verwandte Themen