Ich habe einen Datensatz mit insgesamt 58 Proben. Der Datensatz hat zwei Spalten "Messsignale" und "People_in_area". Aus diesem Grund versuche ich ein lineares Regressionsmodell mit Scikit-learn zu trainieren. Im Moment habe ich 75% meines Datensatzes für Training und 25% für Tests aufgeteilt. In Abhängigkeit von der Reihenfolge, in der sich die Daten vor der Aufteilung befanden, erhalte ich jedoch unterschiedliche R-Quadrat-Werte.Kann ich die Cross-Validierung in einem linearen Regressionsmodell anwenden?
Ich denke, dass, da der Datensatz klein ist, abhängig von der Reihenfolge, in der die Daten vor der Aufspaltung waren, unterschiedliche Werte als x_test und y_test beibehalten werden. Aus diesem Grund denke ich über die Verwendung von "Cross-Validation" an meinem Modell der linearen Regression nach, um die Test- und Trainingsdaten nach dem Zufallsprinzip zu teilen, mehr zu trainieren und mehr zu testen, um auf diese Weise zuverlässigere Ergebnisse zu erhalten . Ist das ein richtiger Ansatz?
Ich schlage vor, diese Frage wäre besser geeignet für "Cross Validated", da es sich auf Techniken statt Programmierung konzentriert – DontDivideByZero