2017-10-23 4 views
-1

Ich habe 1000 Geo-Punkte (lat, lang) als Ausgangs-/Zielpunkte. Es gibt auch historische Daten, die die Reisekosten zwischen einigen der O-D-Paare zeigen. Für einige der O-Ds gibt es keinen Datensatz in dem Datensatz und einige haben mehrere Datensätze mit unterschiedlichen Kosten (z. B. aufgrund von Saisonabhängigkeit).Clustering Ursprungs/Zielpunkte

Ich möchte diese 1000 Punkte auf ein paar Cluster (z. B. 20) nicht nur basierend auf ihrem Standort (lat, long), sondern auch unter Berücksichtigung der durchschnittlichen Reisekosten und geteilten Zielpunkte gruppieren.

Ich freue mich, wenn Sie mich wissen lassen könnten, wenn Sie Vorschläge zum Clustering dieser Daten haben.

+0

Dies ist unterspezifiziert. Legen Sie sie in zufällige Partitionen. (Oder ein Qualitätsziel formalisieren) –

Antwort

0

Sie müssen irgendwie mit fehlenden Werten umgehen - weisen Sie ihnen eine bestimmte Bezeichnung zu oder nehmen Sie einen Mittelwert/Mittelwert. Dann können Sie einen beliebigen Algorithmus verwenden (verschiedene Arten von Merkmalen können zusammen als Eingabe für den Algorithmus verwendet werden)

Wenn es nicht zu viele Dimensionen der Daten gibt und Sie mehr oder weniger wissen, wie viele Cluster es möglicherweise gibt Der k-Means-Algorithmus sollte gut funktionieren.

Wenn Sie Ihre Daten und Cluster auf 2D und 3D visualisieren möchten, und Sie mehr Funktionen haben, müssen Sie Dimensionalitätsreduktion (PCA, t-SNE) anwenden.