2017-01-12 1 views
1

Ich habe einen Datensatz mit insgesamt 58 Proben. Der Datensatz hat zwei Spalten "Messsignale" und "People_in_area". Aus diesem Grund versuche ich ein lineares Regressionsmodell mit Scikit-learn zu trainieren. Im Moment habe ich 75% meines Datensatzes für Training und 25% für Tests aufgeteilt. In Abhängigkeit von der Reihenfolge, in der sich die Daten vor der Aufteilung befanden, erhalte ich jedoch unterschiedliche R-Quadrat-Werte.Kann ich die Cross-Validierung in einem linearen Regressionsmodell anwenden?

Ich denke, dass, da der Datensatz klein ist, abhängig von der Reihenfolge, in der die Daten vor der Aufspaltung waren, unterschiedliche Werte als x_test und y_test beibehalten werden. Aus diesem Grund denke ich über die Verwendung von "Cross-Validation" an meinem Modell der linearen Regression nach, um die Test- und Trainingsdaten nach dem Zufallsprinzip zu teilen, mehr zu trainieren und mehr zu testen, um auf diese Weise zuverlässigere Ergebnisse zu erhalten . Ist das ein richtiger Ansatz?

+0

Ich schlage vor, diese Frage wäre besser geeignet für "Cross Validated", da es sich auf Techniken statt Programmierung konzentriert – DontDivideByZero

Antwort

1

Ja, mit der Kreuzvalidierung erhalten Sie eine bessere Einschätzung Ihrer Modellleistung.

Die zufällige Aufteilung (Kreuzvalidierung) funktioniert jedoch nicht für Zeitreihen und/oder alle Datenverteilungen.

Das "endgültige Modell" wird nicht nur Ihre Schätzung der Modellleistung besser sein.

+0

In diesem Fall wäre das der richtige Weg, das lineare Regressionsmodell zu trainieren, um es später zur Vorhersage von Werten zu verwenden ? – Euskalduna

+0

Wenn Sie trainieren, später zu prognostizieren, werden Sie alle Ihre Daten verwenden. – JensJ

+0

Die Test-/Zugaufteilung, die Sie durchführen, um Ihr Modell zu validieren. In einer realen Einsatzsituation tun Sie dies, um sehen zu können, ob Sie beispielsweise den zukünftigen Wert gut genug vorhersagen können. Wenn Sie denken, dass das Modell gut genug ist, stellen Sie es bereit und trainieren Sie auf allen Daten 100% des Trainingssatzes. (und sogar neue Samples kommen rein) – JensJ

Verwandte Themen