2016-06-29 2 views
1

Da ich einen Haufen von Gegenständen habe, die in Gruppen aufgeteilt werden müssen, kann ich ausdrücken, wie stark sich diese Gegenstände voneinander unterscheiden , in einer Zahl, eine Punktzahl, wenn du willst, wie würde ich diese Eingabe in sinnvolle Gruppen trennen?Wenn Sie einen Stapel von Gegenständen gegeben haben, teilen Sie sie in sinnvolle Gruppen auf, indem Sie sie vergleichen

ich erkennen, dass dies ein bisschen eine abstrakte Frage ist, so zu versuchen, und es klarer zu machen hier ist das, was ich bisher versucht:

Ich habe versucht, die Eingabe als gewichteter Graph, der in dem jeder Knoten ist mit jeder anderen Ecke verbunden, wobei die "Stärke" der Kante ihre relative Punktzahl ist. Dann würde ich die längste Kante des Graphen nehmen und jeden zweiten Knoten durch "Nähe" zu den Scheitelpunkten am Ende dieser längsten Kante trennen. Dies funktioniert einigermaßen gut, hat aber den Nachteil, immer zwei Gruppen für ein Ergebnis zu liefern, was nicht notwendigerweise logisch ist.

Zum Beispiel: sagen, ich kann die Verschiedenheit der Früchte in einer Zahl ausdrücken. Dann gab es einen Haufen Äpfel, und die verschiedenen Apfelmarken bildeten verschiedene Kategorien, wie Elstar, Jonagold, was hast du ... Aber wenn ich einen Haufen Äpfel, Birnen und Orangen hätte, dann wären die Äpfel relativ ähnlich und sollte in die gleiche Kategorie fallen.

Ich vermute, ich müsste jeden Rand des Graphen größer als der Mittelwert plus die Standardabweichung oder etwas ähnliches entfernen, und dann sehen, wie viele unzusammenhängende Teilgraphen erscheinen, aber ich würde gerne den Ansatz hören von jemandem mit mehr mathematischem Wissen als ich.

+1

Es kann etwas Nützliches geben [cluster analysis] (https://en.wikipedia.org/wiki/Cluster_analysis) –

Antwort

2

Dies ist ein bisschen lang für einen Kommentar.

Worauf Sie sich beziehen, ist Clustering. Sie scheinen eine "Distanz" -Matrix zwischen zwei Elementen zu haben, obwohl dies wahrscheinlich eine Inverse der "Stärke" -Metrik ist. Eine Entfernungsmetrik ist nicht negativ und 0, wenn zwei Dinge gleich sind. Je größer der Wert ist, desto weiter auseinander liegen die Gegenstände.

Wenn Sie eine generische "Distanz" -Matrix haben, ist eine typische Clustermethode hierarchisches/agglomeratives Clustering ("Abstand" steht in Anführungszeichen, weil es möglicherweise nicht alle formalen Qualitäten einer Entfernung erfüllt). Ein guter Einstieg in das Verständnis dieser Technik ist die Wikipedia page. Die Ideen hinter dem hierarchischen Clustering können auf nicht vollständig verbundene Graphen angewendet werden.

Ich würde erwarten, dass fast jedes Statistikpaket eine Form von hierarchischen Clustern enthält.

Verwandte Themen