2017-01-12 1 views
2

Entschuldigung, ich habe gerade mit maschinellem Lernen begonnen und bin keineswegs ein Experte darin. Also wird diese Frage sehr wahrscheinlich ignorant klingen, und ich fürchte, ich kann es nicht vermeiden. Außerdem suchte ich nach besten Kräften und war nicht in der Lage, ähnliche Fragen oder Antworten zu finden, die meine Frage beantworten könnten.Muss ein Dataset eine normale Verteilung für jeden Parameter sein?

Ich habe gelernt, dass ein Modell nicht lernen kann, wenn es nicht aus einem Datensatz mit einer normalen Verteilung stammt. Außerdem ist die einzige Methode, mit der ich herausfinden kann, dass ein Datensatz normal verteilt ist, die für jeden Parameter beschriebene grafische Methode here. Das kann nicht ratsam sein, und wenn das der Fall ist, kann ich mich jederzeit ändern. Bitte korrigieren Sie mich, wenn das der Fall ist.

Um zu meiner Frage zu gelangen, wenn ich eine Normalverteilung für bestimmte Parameter noch nicht für einige andere sehe, bedeutet das, dass der Datensatz fehlerhaft ist? Oder bedeutet es, dass ich diese Parameter nicht für das Modell verwenden sollte?

Vielen Dank im Voraus, und Entschuldigung, wenn es grundlegende Fehler in meinem Verständnis der Konzepte gibt.

+0

'Ich habe gelernt, dass ein Modell nicht lernen kann, wenn es nicht aus einem Datensatz mit einer normalen Verteilung stammt. -> Das hängt vom Modell ab. 'Wenn ich eine normale Verteilung für bestimmte Parameter sehe, aber nicht für einige andere, bedeutet das, dass der Datensatz fehlerhaft ist?' -> nein bedeutet, dass DIESES spezifisches Modell nicht das richtige für Ihre Daten ist. Möglicherweise müssen Sie einen anderen finden. – cel

+0

Danke cel, ich glaube, ich habe das Konzept der Modellauswahl dank dir besser verstanden. –

+0

+ cel Darf ich fragen, ob der AdaBoost Regressor für die in der Frage beschriebene Verteilung gültig ist? Auch wenn es keine gibt, ist es in Ordnung, aber gibt es eine Liste der Modelle, die ich für solche Fälle verwenden kann? Oder eine Faustregel zu entziffern, wenn ein Modell für die obige Situation gültig ist? –

Antwort

0

Wie gesagt, jedes Modell hat seine eigenen Annahmen und Einschränkungen. Während es ein Modell gibt, das nur auf vollständig normal verteilten Daten lernen kann, gibt es viele Modelle, die nicht funktionieren, wie SVMs oder Random Forests.

Wenn Sie in der Praxis wissen, dass Ihre Daten nicht den Annahmen Ihres Modells entsprechen, können Sie ein anderes Modell verwenden oder Ihre Daten entsprechend Ihrer Annahme bearbeiten. Die letztere Option ist etwas, das Sie sorgfältig prüfen sollten, um sicherzustellen, dass Ihre Manipulation Ihr Modell nicht unbrauchbar macht, wenn es in realen Szenarien verwendet wird.

+0

Vielen Dank lieber Herr, oder Ma'am –

+0

Ich fragte cel dies auch. Darf ich fragen, ob der AdaBoost Regressor für die in der Frage beschriebene Art der Verteilung gültig ist? Auch wenn es keine gibt, ist es in Ordnung, aber gibt es eine Liste der Modelle, die ich für solche Fälle verwenden kann? Oder eine Faustregel zu entziffern, wenn ein Modell für die obige Situation gültig ist? –

+0

@Bob - Fragen Sie nach einem Regressionsmodell, das mit einem Datensatz umgehen kann, dessen Parameter nicht normal verteilt sind? Die meisten gängigen Regressionsmodelle könnten mit einem solchen Datensatz arbeiten. In Bezug auf Adaboost: Es ist ein Meta-Regressor und nur seine Base-Schätzer ist relevant für Ihre Bedenken. – ginge

Verwandte Themen