2017-12-22 7 views
-1

Ich habe einen Datensatz wieHandhabung Abhängige Funktionen für maschinelles Lernen

Project | Area  | Feature 1 | Feature 2 | 
---------+------------+-----------+-----------+... 
A  | Production |  X  |  X  | 
A  | Testing |  Y  |  Y  | 
B  | Testing |  Z  |  Z  | 
C  | QA   |  W  |  W  | 

Here „Area“ ist abhängig von Projekt (das heißt Kombination von Area und Projekt macht die Identität der Region) und sie haben viele zu viele Beziehung. Ich prognostiziere Bereich mit tiefen neuronalen Netzwerk mit Keras. Wie sollte ich diese Daten vorverarbeiten?

Projekt ist ein sehr wichtiges Merkmal.

Gibt es auch eine Formel für die Approximation der Anzahl der Trainingsdaten, die für die Anzahl der Features benötigt werden?

Antwort

0

Mit verwandten Funktionen ist nicht an sich ein Problem. Die Probleme treten normalerweise auf, wenn Sie nicht die gleichen Eingabemerkmale haben, wenn Sie trainieren und wenn Sie Vorhersagen treffen.

Auch sicherstellen, dass die Beziehung sinnvoll ist. In einigen Fällen kann dies zu genaueren Ergebnissen führen, die Sie falsch interpretieren könnten, oder die Ergebnisse des Modells merken. Es ist wirklich schwierig, hier einen anständigen Rat zu geben, ohne mehr über das Problem zu wissen.

Wie für die Anzahl der Beispiele hängt es wirklich von der Komplexität des Problems ab. Selbst für eine einzige Eingabe, wenn das, was Sie zu lernen versuchen, eine konstante Funktion ist, genügt ein Beispiel, aber wenn Sie versuchen, eine Hash-Funktion zu lernen, werden Sie viel mehr brauchen und selbst dann wird es vielleicht nicht funktionieren oder machen Fehler. Mein Vorschlag ist, es mit dem, was Sie haben, zu trainieren, zu überprüfen, wie der Verlust fortschreitet und von dort zu extrapolieren.

+0

Wenn ich mehr über Dataset erkläre, hängen alle Features von "Project" ab. Ohne Berücksichtigung von Beziehungen, bei der heißen Kodierung von Features (alle sind kategorisch), bin ich bei 40% Validierungsgenauigkeit fest und erhalte eine 85% ige Modellgenauigkeit. Sicher ist es überanpassend, also versuche ich, Beziehungen zu verwenden, um Genauigkeit zu verbessern. – user2578525

+0

@ user2578525 Versuchen Sie ein kleineres Modell oder stärkere Regularisierung. Das Hinzufügen von Beziehungen, denke ich, würde das Modell noch mehr anpassen. Stellen Sie außerdem sicher, dass die Art und Weise, wie Sie die Validierungsbeispiele auswählen, tatsächlich zufällig ist. – Sorin