2016-06-17 11 views
0

Ich habe eine Daten, in der jede Probe Feature-Vektor bestehend aus x und etwa 9000 andere Funktionen und auch entsprechende y (Zielwert). in denen x und y beide kontinuierliche Werte sind (zwischen 0 und 20). x eine verrauschte Daten, aber wir können die Quelle des Rauschens nicht erkennen. Das Ziel ist, y von x und anderen Features vorherzusagen (Features sind nicht laut). Die Anzahl der Proben beträgt etwa 900.000. Was sind die Ansätze zum maschinellen Lernen, die ich in diesem Problem anwenden kann? auch berühmte Netzwerke im neuronalen Netzwerk oder Deep Learning.vorhersagen kontinuierlichen Zielwert von verrauschten Eingabe mit maschinellen Lernen approches

+0

Ich bin ein wenig verwirrt, was Sie suchen? Möchten Sie Vorschläge zu Algorithmen, Konfigurationen von Algorithmen, beides? – Andnp

+0

Ich bin auf der Suche nach Algorithmen oder gemeinsamen maschinellen Lernansätzen kann zur Lösung dieses Problems verwendet werden. Zum Beispiel kann dieses Problem als ein Regressionsproblem angesehen werden, aber Eingabedaten, die x sind, sind laut, dass wir diese Eigenschaft nicht in der Regression haben. Ich möchte wissen, ob es eine gemeinsame Methode oder einen Algorithmus im maschinellen Lernen gibt, um diese Art von Problemen oder Problemen in der Nähe dieses Problems zu lösen. Wenn es welche gibt, würde ich es begrüßen, wenn ich es nur nenne. – sandra

+1

In diesem Fall, ich denke, Sie haben die Frage selbst beantwortet. Der erste Ansatz, der mir einfällt, wäre ein neuronales Netzwerk. Die Interaktionen zwischen den Features Ihres Datasets würden die Architektur dieses Netzwerks bestimmen (daher können wir dort keine Kommentare abgeben), und Sie hätten einen einzigen Ausgabeknoten, der die Regression bewältigen würde. – Andnp

Antwort

1

Das klingt für mich wie ein Standard-Regressionsproblem, obwohl Ihre Vorhersagekorrelation (technischer Begriff :-)) in direktem Verhältnis zu dem Lärm von x saugen wird. Sehen Sie sich alle Bildungsbeispiele zur Vorhersage von Wohnungspreisen an (oft zur Veranschaulichung des Gradientenabfalls). Sie haben 9000 Funktionen statt 3 oder 4, aber das ist nur eine Frage der Trainingszeit.

Sie könnten auch eine "Faktoranalyse" in Erwägung ziehen, damit Sie die Merkmale eliminieren können, die nicht genug zu y (Korrelationskoeffizient nahe 0,0) beitragen. Dies wird "Dimensionalitätsreduktion" genannt; Suchen Sie nach PCA (Hauptkomponentenanalyse).

+1

Bitte geben Sie einen Wikipedia-Algorithmus an, der auf den Fachbegriff 'suck' verweist. Es würde meinem Fortschritt in ML helfen. – javadba

+0

Nur ein Witz; Ich hätte es als solches markieren sollen. :-) Es bedeutet ungefähr "unakzeptable Ergebnisse und Reaktionen". – Prune

+0

Vielleicht ein Link zu "mit PHP für große ML" – javadba

Verwandte Themen