0

Ich habe einige hochdimensionale Daten, aus denen ich Ausreißer erkennen möchte. Ich weiß, dass, wenn ich mit niedrigdimensionalen Daten arbeite, ich clustering und dann überprüfen kann, ob ein Datenpunkt zu einem Cluster gehört, oder die durchschnittliche Entfernung von ihm zu seinen nächsten Nachbarn usw. berechnen kann. Aber das kann ich nicht diese auf hochdimensionalen Daten wegen des Fluches der Dimensionen.Macht es Sinn, bei der Ausreißererkennung zufällig hochdimensionale Daten in niederdimensionale Daten zu projizieren?

Also ich denke, vielleicht kann ich nach dem Zufallsprinzip die hochdimensionalen Daten zu niedriger dimensionalen projizieren, und überprüfen, ob die Projektionen eines Datenpunktes Ausreißer in den meisten der transformierten Daten sind. Meine Annahme ist, dass ein Ausreißer in der höheren Dimension auch in den meisten Projektionen in die untere Dimension als Ausreißer erscheinen sollte.

Zum Beispiel erzeugt zufällig einige Vorsprünge von R^4 (nehmen wir an, den Fluch der Dimensionen in R^4 haben) zu R^2 (wo wir mit herkömmlichen Methoden Cluster können), bezeichnet durch P1, P2, P3 .. Pn (alle von ihnen sind 2x4 Matrizen mit Zufallselementen) . Angenommen, wir möchten Ausreißer in a1, a2 .. an erkennen. Wenn für viele k, Pk*am ist ein Ausreißer in Pk*a1, Pk*a2 .. Pk*an, als am ist ein Ausreißer.

Macht es Sinn?

+1

Kennen Sie die als Dimensionalitätsreduktion bekannten Techniken? – delnan

+0

@delnan Danke. Ich lese jetzt darüber. – sqd

Antwort

-1

Die typische Methode zur Erkennung von Anomalien wäre die Reduzierung der Dimensionalität mit principle component analysis. Die Idee ähnelt der Beschreibung, die Sie beschreiben, aber sie verwendet lineare Algebra, um eine kluge Wahl der exakten Art der Projektion zu treffen. Dadurch wird sichergestellt, dass bei der Projektion nur minimale Informationen verloren gehen.

Verwandte Themen