Die Aufgabe, die Sie anstreben, ist Klassifizierung, da die Zielwerte eine nominale Skala sind.
Um den richtigen Wortschatz zu erhalten, ist der Rest der Arbeit bereits von anderen Bibliotheken wie Python, die die meisten relevanten Algorithmen und viele Daten enthält, um sie zu testen und die Algorithmen zu lernen.
Es scheint, dass Sie vier Variablen als Eingabe haben:
- Alter - metrische Variable
- Gewicht - metrische Variable
- Diagnose ein - Sollgröße
- Diagnose zwei - Sollgröße
Sie müssen Sie nominale Variablen kodieren, wo ich ein Array aller möglichen Diagnosen empfehlen würde, wie z wie:
Fieber, Schmerzen Kopfschmerzen, Magen, x - [0, 0, 0, 0]
Jetzt wird jedes Array-Element auf 1 gesetzt werden, wenn die Diagnose richtig und 0 sonst. Daher haben Sie insgesamt 2 + n Eingabevariablen, während n die Anzahl der möglichen Symptome ist.
Dann können Sie einfach auf die sklearn Bibliothek gehen und starten Sie den einfachsten Klassifikationsalgorithmus verwendet: Nearest Neighbour Classification
Wenn dies nicht gutes Ergebnis hat ergeben (wahrscheinlich werden die Ergebnisse nicht gut sein), können Sie beginnen, anspruchsvollere verwenden Modelle (SVM, RandomForest). Doch zuerst sollten Sie das Vokabular lernen und einfache Modelle verwenden, um die Methoden und die Verarbeitungskette kennenzulernen.