0

Alle hierarchischen Clustering-Methoden, die ich in Python implementiert habe (scipy, scikit-learn usw.), teilen oder kombinieren zwei Cluster gleichzeitig. Dies zwingt den Verzweigungsfaktor an jedem Knoten zu 2. Für meinen Zweck möchte ich, dass der Verzweigungsfaktor größer als 2 ist. Dies ist hilfreich in Situationen, in denen Verbindungen zwischen Clustern bestehen.Hierarchisches Clustering mit Verzweigungsfaktor> 2?

Ich kenne keine hierarchischen Clustering-Techniken, die einen Verzweigungsfaktor größer als 2 haben; existieren sie?

+0

Willkommen bei Stack Overflow! Ich habe den Titel Ihrer Frage so bearbeitet, dass er mehr Details zu Ihrer Frage enthält - im Allgemeinen handelt es sich um hierarchisches Clustering und nicht um Dokumentencluster. Ich möchte Sie auf UPGMA und WPGMA hinweisen. Diese sind in scipy implementiert (Wrapper existieren in scikit-learn), und sie erlauben Verbindungen. –

Antwort

0

Cluster dieser Datensatz mit Single-Link:

0 0 
0 1 
1 0 
1 1 

Und Sie wird sehen eine 4-Wege-Zusammenführung.

Aber für andere Verknüpfungen, immer die besten 3-Wege-Split zu finden würde wahrscheinlich die Laufzeitkosten zu O (n^4) erhöhen. Das willst du wirklich nicht.