2013-02-07 15 views
5

Angenommen, es gibt drei zu vergleichende Sequenzen: a, b und c. Traditionell ist die resultierende 3-mal-3-paarweise Abstandsmatrix symmetrisch, was anzeigt, dass der Abstand von a nach b gleich der Entfernung von b nach a ist.Eine "asymmetrische" paarweise Abstandsmatrix

Ich frage mich, ob TraMineR bietet eine Möglichkeit, eine asymmetrische paarweise Distanz-Matrix zu produzieren.

+5

Ich habe noch nie TraMineR verwendet, aber ein Wort der Vorsicht auf einer Seite Problem - wenn Ihre Maßnahme asymmetrisch ist, dann passt es nicht mehr die Definition einer Entfernung. Das mag ein ganz akademischer Punkt sein. Aber ich vermute, dass Sie diese Matrix später in einem Algorithmus verwenden werden, und wenn dieser Algorithmus annimmt, dass Sie ihm eine Entfernungsmetrik geliefert haben, obwohl Sie dies nicht getan haben, kann Schlechtigkeit zu einer Art führen, die schwer zu diagnostizieren ist. –

+2

Fragen, die sich darauf beziehen, wie etwas in einer bestimmten Software ausgeführt wird, gehören normalerweise zu StackOverflow. Daher habe ich diese Frage für die Migration markiert. Allerdings hat TraMineR auch eine eigene Liste, die eine noch bessere Seite sein könnte. –

Antwort

6

Nein, TraMineR erzeugt gerade aus den in Pats Kommentar hervorgehobenen Gründen keine "asymmetrischen" Unähnlichkeiten. wir können zum Beispiel

  • messen die Diskrepanz zwischen den Sequenzen

    Das Hauptinteresse paarweise Unterschiede zwischen den Sequenzen der Berechnung ist, dass wenn wir eine solche Verschiedenheiten haben, Nachbarschaften bestimmen, finden Medoide, ...

  • run Cluster Algorithmen, selbstorganisierenden Karten, MDS, ...
  • ANOVA-ähnliche Analyse der Sequenzen machen
  • Regressionsbäume für die Sequenzen wachsen

Die Eingabe einer nicht symmetrischen Unähnlichkeitsmatrix in diesen Prozessen würde höchstwahrscheinlich irrelevante Ergebnisse erzeugen.

Aufgrund dieser Symmetrieanforderung MÜSSEN die für die Berechnung optimaler Matching-Abstände verwendeten Substitutionskosten symmetrisch sein. Es ist wichtig, Substitutionskosten nicht als die Kosten des Wechsels von einem Staat zum anderen zu verstehen, sondern sie als das zu verstehen, was sie sind, d. H. Kosten zu bearbeiten. Wenn wir zwei Sequenzen vergleichen, zum Beispiel aabcc und aadcc, können wir sie gleich machen, indem wir entweder b durch d im ersten oder d mit b im zweiten ersetzen. Es würde dann keinen Sinn machen, nicht die gleichen Kosten für die beiden Ersetzungen zu zahlen.

Hoffe, das hilft.

+0

Vielen Dank für Ihre großartige Erklärung! Wenn mein Verständnis stimmt, finde ich jedoch eine Arbeit, in der eine asymmetrische paarweise Abstandsmatrix erstellt wird und dann für die Clusteranalyse verwendet wird. Sie weisen irgendwie unterschiedliche Gewichte für die Einfügung und Löschung zu und verwenden einen Taylor-Butina-Clustering-Algorithmus mit der asymmetrischen Abstandsmatrix. Das Papier ist "Integration von sequentiellen Informationen in traditionelle Klassifikationsmodelle unter Verwendung eines element-/positionsempfindlichen SAM", geschrieben von Anita Prinzie und Dirk Van den Poel. – POTENZA

Verwandte Themen