ich diese Frage auch auf „Cross Validated“ Forum gefragt haben, aber ohne Antwort, so weit, so ich versuche, hier auch:Computing Ähnlichkeitsmatrix mit gemischten Daten
Ich möchte Ähnlichkeitsmatrix berechnen (was ich wird weiter für Clusteringzwecke) aus meinen Daten (Fehlerdaten von Automobilunternehmen) verwendet. Die Daten bestehen aus diesen Variablen:
START DATUM + ZEIT (TT/MM/JJJJ hH/MM/SS), DAUER (in Sekunden), TAG DER WOCHE (Mo, Di, ...), ARBEITSTEAM (1,2,3), LOKALISIERUNG (1,2,3, ..., 20), STÖRUNGSTYP
Daraus wird deutlich, dass es sich um kontinuierliche und kategorische Daten handelt. Welche Methode würden Sie vorschlagen, um Ähnlichkeiten zwischen Fehlertypen zu berechnen? Ich denke, ich kann Euklidische Distanz oder Gowes Ähnlichkeit nicht benutzen. Vielen Dank im Voraus.
Das hängt von Ihrem Zweck ab. Zu welchem Zweck möchten Sie Ähnlichkeit definieren? – user31264
Da ich Cluster-Analyse auf die Daten (hierarchische Clustering) durchführen möchten –
Sie sollten andere eine Woche geben, um nicht zu antworten ** nur 5 Stunden **. Nicht Cross-Post, Cross-validiert war der bessere Ort zu fragen. –