Ich habe einen Datensatz wieHandhabung Abhängige Funktionen für maschinelles Lernen
Project | Area | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
A | Production | X | X |
A | Testing | Y | Y |
B | Testing | Z | Z |
C | QA | W | W |
Here „Area“ ist abhängig von Projekt (das heißt Kombination von Area und Projekt macht die Identität der Region) und sie haben viele zu viele Beziehung. Ich prognostiziere Bereich mit tiefen neuronalen Netzwerk mit Keras. Wie sollte ich diese Daten vorverarbeiten?
Projekt ist ein sehr wichtiges Merkmal.
Gibt es auch eine Formel für die Approximation der Anzahl der Trainingsdaten, die für die Anzahl der Features benötigt werden?
Wenn ich mehr über Dataset erkläre, hängen alle Features von "Project" ab. Ohne Berücksichtigung von Beziehungen, bei der heißen Kodierung von Features (alle sind kategorisch), bin ich bei 40% Validierungsgenauigkeit fest und erhalte eine 85% ige Modellgenauigkeit. Sicher ist es überanpassend, also versuche ich, Beziehungen zu verwenden, um Genauigkeit zu verbessern. – user2578525
@ user2578525 Versuchen Sie ein kleineres Modell oder stärkere Regularisierung. Das Hinzufügen von Beziehungen, denke ich, würde das Modell noch mehr anpassen. Stellen Sie außerdem sicher, dass die Art und Weise, wie Sie die Validierungsbeispiele auswählen, tatsächlich zufällig ist. – Sorin