2017-09-29 1 views
0

Ich arbeite an Versicherungsbetrug Datensatz mit meist kategorischen Variablen wie Altersnachweis, Bildungsniveau, Beziehungsmanager Code.Wie werden kategoriale Variablen behandelt, während Anomalien erkannt werden?

Um Anomalien in diesem Datensatz zu erkennen, habe ich auf Basis der Häufigkeitszählung kategorisch in numerische umgewandelt und den Anteil der Ebenen berechnet.

Ist das der richtige Weg? Wenn nicht, dann schlagen Sie bitte eine Möglichkeit vor, mit kategorialen Variablen umzugehen und Ausreißer zu erkennen.

Antwort

0

Die Frequenz sollte gut funktionieren, während die Verwendung der Beschriftungen und deren Mittelwertbildung durch den gesamten Datensatz zu einer Überanpassung führt. Sie können versuchen, Statistiken auf Labels zu berechnen, indem Sie eine zufällige Permutation der Daten verwenden - die durchschnittliche Bezeichnung aller Objekte mit demselben Kategoriewert, die vorher in der Permutation angegeben wurden, ist der Feature-Wert für dieses gegebene Objekt. Eine andere Möglichkeit besteht darin, einen Algorithmus zu verwenden, der kategorische Funktionen sofort unterstützt. Sie können versuchen, CatBoost https://catboost.yandex

zu verwenden
Verwandte Themen