2017-07-20 3 views
0

Mein Ziel ist es, vorherzusagen, welchen Hypothekentyp eine Person basierend auf ihrem Alter mit Azure Machine Learning annimmt.Vorhersage eines ausgewählten Hypothekentyps mit Azure Machine Learning

Beachten Sie, dass ich 220.000 Datenzeilen habe. Es gibt mehrere verschiedene Arten von Hypotheken, aber Käufe, Remortgages und Buy-to-Lets dominieren die Daten. Ein typischer Querschnitt von Daten können sein: -

  • Alter 20, Kauf
  • Alter 30, Kauf
  • Alter 30, Remortgage
  • Alter 40, Remortgage
  • Alter 55, kaufen lassen
  • Alter 55, Equity Release

My Azure Machine Learning Exp eriment ist unten gezeigt. Meine Metadaten Edits sollen die MortgageType-Spalte in eine Bezeichnung und das Alter in eine Ganzzahl ändern. Ich habe auch damit gespielt, sie kategorisch/nicht-kategorisch zu machen.

Mortgage Types Experiment

Wenn ich die Bewertungsergebnisse anzuzeigen, erhalte ich die folgenden. enter image description here

Bedeutet das, dass ich nur mit Lets and Purchases mit 60% Vertrauen wirklich vorhersagen kann? Mache ich das richtig und gibt es einen anderen Weg, mein Ziel zu erreichen?

+0

Habe ich richtig verstanden, dass Sie nur das Alter als Trainingsdaten haben? –

+0

Ja das ist richtig (beachte, dass ich wirklich neu in dieser Sache bin). Obwohl ich gerade einen PLZ-Sektor (z. B. LE10 1) als ein weiteres Merkmal hinzugefügt habe. Ich bekomme etwas bessere Ergebnisse. Ich habe auch den Algorithmus in eine Multiclass Decision Forest geändert und einen Sweep hinzugefügt. –

Antwort

1

Das von AzureML angezeigte Diagramm wird als Konfusionsmatrix bezeichnet. In Ihrem Fall sollte es wie folgt interpretiert werden:

Für jede Hypothek, die eigentlich eine Überbrückungshypothek war, gibt es eine 64,7% Chance, dass das Modell einen Kauf vorhersagen würde Hypothek, eine 17,6% ige Chance eine Kaufhypothek und eine 17,6 % Chance eine Umschuldung.

Ihr Modell sagt immer nur voraus, dass eine ausgewählte Hypothek ein Kauf ist, um sie zu vermieten, zu kaufen oder umzutauschen. Dies liegt wahrscheinlich daran, dass Sie nur das Alter als Merkmal verwenden, das dem Modell nicht viele Informationen gibt. Erwägen Sie, Ihrem Modell zusätzliche Funktionen hinzuzufügen, um seine Vorhersagekraft zu erhöhen.

+0

Danke dafür. Ich habe einen Postleitzahlensektor als weiteres Feature hinzugefügt, einen Sweep hinzugefügt und den Algorithmus durch einen Multiclass Decision Forest ersetzt. Es basiert jetzt auf Standort und Alter - ich bekomme viel bessere Ergebnisse (91% Genauigkeit). Ich werde sehen, ob es noch weitere Funktionen gibt, die ich hinzufügen kann. –

Verwandte Themen