-1

ich diese Frage auch auf „Cross Validated“ Forum gefragt haben, aber ohne Antwort, so weit, so ich versuche, hier auch:Computing Ähnlichkeitsmatrix mit gemischten Daten

Ich möchte Ähnlichkeitsmatrix berechnen (was ich wird weiter für Clusteringzwecke) aus meinen Daten (Fehlerdaten von Automobilunternehmen) verwendet. Die Daten bestehen aus diesen Variablen:

START DATUM + ZEIT (TT/MM/JJJJ hH/MM/SS), DAUER (in Sekunden), TAG DER WOCHE (Mo, Di, ...), ARBEITSTEAM (1,2,3), LOKALISIERUNG (1,2,3, ..., 20), STÖRUNGSTYP

Daraus wird deutlich, dass es sich um kontinuierliche und kategorische Daten handelt. Welche Methode würden Sie vorschlagen, um Ähnlichkeiten zwischen Fehlertypen zu berechnen? Ich denke, ich kann Euklidische Distanz oder Gowes Ähnlichkeit nicht benutzen. Vielen Dank im Voraus.

+0

Das hängt von Ihrem Zweck ab. Zu welchem ​​Zweck möchten Sie Ähnlichkeit definieren? – user31264

+0

Da ich Cluster-Analyse auf die Daten (hierarchische Clustering) durchführen möchten –

+0

Sie sollten andere eine Woche geben, um nicht zu antworten ** nur 5 Stunden **. Nicht Cross-Post, Cross-validiert war der bessere Ort zu fragen. –

Antwort

0

Nein, Sie benötigen eine Ad-hoc-Funktion, die Ihr Wissen darüber repräsentiert, was die Daten in der realen Welt bedeuten. Vermutlich wird es hauptsächlich eine Gewichtung auf eine kontinuierliche Differenz und eine einfache 2D-Matrix für die diskreten kategorischen Variablen anwenden. Aber regulieren Sie nicht unsere Zensur von Extremwerten oder Fuzzyfizierung.

+0

Ich fürchte, ich weiß nicht, was du meinst :) Kannst du konkreter sein? Vielleicht würde ein Beispiel helfen. Ich möchte die Matrix berechnen, so dass ich in der Lage bin, hierarchisches Clustering durchzuführen und Relationen zwischen Fehlertypen zu finden. –