Bei der Modellparameterauswahl führen wir immer eine Gittersuche mit Kreuzvalidierung durch, um zu testen, welche Parameter besser sind als andere.Modellparameterauswahl für Zeitreihendaten
Es ist richtig für allgemeine Trainingsdaten, wie this one, aber wenn Daten Zeit Beziehung miteinander hat, wie verkauft über Tage oder Lager über Tage, ist das falsch, Kreuzvalidierung direkt zu tun?
Als Kreuzvalidierung wird kFold verwendet, die zufällig in Trainingsdaten aufgeteilt wird, was bedeutet, dass für Zeitreihendaten die letzten Tage für das Training an alten Tagen verwendet werden.
Meine Frage ist, wie Parameterauswahl oder Kreuzvalidierung auf Zeitreihendaten zu tun?
vielen Dank :) Ich frage mich für den zweiten und dritten Absatz: Denkst du manchmal, wir könnten Datumsinformationen ignorieren und direkt cv, obwohl einige Trainingsdaten von Datum hinter Testdatum kommen können? dann in welchen szenarien könnte ich das machen und trotzdem glauben, cv ergebnis? – linpingta
Ich denke, es ist sicher, dies zu tun, wenn alle Beobachtungen vollständig unabhängig sind (aber dann ist es nicht viel von einer Zeitreihe, nur Daten, die zufällig ein Datum-Attribut haben). Wenn die aktuelle Beobachtung in irgendeiner Weise mit früheren Daten in Zusammenhang steht oder davon beeinflusst wird, führt das Ignorieren der Daten zu einem Leck. –