2012-12-12 10 views
6

Ich bin relativ neu im maschinellen Lernen und versuche, Entscheidungsbaum Induktion in das große Schema der Dinge zu platzieren. Werden Entscheidungsbäume (z. B. solche mit C4.5 oder ID3) als parametrisch oder nichtparametrisch betrachtet? Ich würde annehmen, dass sie in der Tat parametrisch sind, da die Entscheidungsaufteilungspunkte für reale Werte aus einer Verteilung von Merkmalswerten, beispielsweise dem Mittelwert, bestimmt werden können. Sie teilen jedoch nicht die nichtparametrische Eigenschaft, alle ursprünglichen Trainingsdaten zu behalten (wie man es mit kNN machen würde).Werden Entscheidungsbäume (z. B. C4.5) als nichtparametrisches Lernen betrachtet?

Antwort

9

Der Begriff "parametrisch" bezieht sich auf Parameter, die die Verteilung der Daten definieren. Da Entscheidungsbäume wie C4.5 keine Annahmen bezüglich der Verteilung der Daten treffen, sind sie nichtparametrisch. Die Gaußsche Maximum-Likelihood-Klassifikation (GMLC) ist parametrisch, weil sie annimmt, dass die Daten einer multivariaten Gaußschen Verteilung folgen (Klassen sind durch Mittel und Kovarianzen gekennzeichnet). In Bezug auf Ihren letzten Satz ist das Beibehalten der Trainingsdaten (z. B. instanzbasiertes Lernen) nicht für alle nichtparametrischen Klassifizierer gemeinsam. Zum Beispiel werden künstliche neuronale Netzwerke (ANN) als nichtparametrisch betrachtet, aber sie behalten die Trainingsdaten nicht bei.

+0

Was ist mit der Idee des Splitpunkts der Entscheidungsknoten für reale Werte, die durch eine Verteilung bestimmt werden? – stackoverflowuser2010

+1

Eine Verteilung ist nicht erforderlich. Sie können alle Ihre Instanzen nach dem Wert Ihres kontinuierlichen Attributs sortieren und dann zwischen den beiden Werten aufteilen, die den Informationsgewinn maximieren. Hinsichtlich der Verteilung der Daten wurde keine Annahme gemacht (d. H. Keine Annahme, dass die Daten normal oder anderweitig verteilt sind). – bogatron

+0

Aber lassen Sie uns sagen, dass eine bestimmte Implementierung eines Entscheidungsbaums eine Verteilung verwendet, um das Teilen durchzuführen. Dann würde das diese Implementierung parametrisch machen, oder? – stackoverflowuser2010

Verwandte Themen