In Clustern welche Auswirkungen haben die lauten, redundante und irrelevante Attribute darauf? Helfen sie Clustering zu helfen oder zu verletzen? Ich weiß, dass es mit verrauschten Daten nicht umgehen kann, aber bei den anderen beiden nicht sicher ist.Ermitteln der Auswirkungen von Clustering
Antwort
Lärm
Leistung vieler Clustering-Algorithmen wie k-means, Partitionierung um Median usw. verschlechtert als der Prozentsatz der Lärm zunimmt. Bei Beispielen für k-Means-Clustering variiert der Clustering-Schwerpunkt aufgrund der Ausreißer (Daten, die sich stark vom Datensatz unterscheiden). Der Algorithmus braucht lange Zeit, um zu konvergieren, und führt möglicherweise nicht zu einem guten Clustering.
Die meisten Cluster-Algorithmen bevorzugen, das Rauschen (Ausreißer) aus dem Datensatz vor dem Clustering zu entfernen.
Für weitere Informationen: Effect of noise on the performance of clustering techniques
Redundante Daten (kein redundantes Attribut aber redundante Datenpunkte)
diesen Effekt auch den Clustering in negativer Art und Weise, sondern hängt von dem Clustering-Algorithmus. Wenn ein Algorithmus die Häufigkeit des Datenpunkts berücksichtigt (Beispiel unter Berücksichtigung von Clusterpunkten, Median usw.), dann kann der Mittelwert des Clusters variieren.
Normalerweise möchten Sie Daten nicht auf der Grundlage der Wahrscheinlichkeit des Auftretens eines Datenpunkts gruppieren. Wenn also ein Datenpunkt redundant ist, wird empfohlen, ihn vor dem Clustering zu entfernen.
Wenn Sie redundante attrubute (d. H. Zusammengehöriges Attribut) betrachten, kann es Clustering beeinflussen oder auch nicht. Abhängig von der Domäne des Datensatzes.
Irrelevant Attribut
Auch die Effekt-Clustering in negativer Weise. Aufgrund des irrelevanten Attributs konvergiert das Clustering möglicherweise nicht. Tatsächlich werden manchmal irrelevante Attribute als Rauschen betrachtet. Auch bei höheren Dimensionen kommt der Fluch der Dimensionalität. Daher wird oft vorgeschlagen, die Dimensionalität vor dem Clustering zu reduzieren.
Einige Details:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering
- 1. Auswirkungen der negativen Polsterung
- 2. Guice: Auswirkungen der Feldeinkopplung
- 3. Clustering-Schlüssel bestellt von
- 4. Auswirkungen der Aktivierung usageLegacyV2RuntimeActivationPolicy?
- 5. Spectral Clustering vs hierarchische Clustering
- 6. Leistung Auswirkungen der Verwendung von Swashbuckle
- 7. Auswirkungen der Konfiguration IoC-Container von Code
- 8. Statistik der positiven Auswirkungen von TDD/BDD
- 9. Auswirkungen
- 10. Sicherheitsrelevante Auswirkungen von Framing?
- 11. Ermitteln der Dokumentenreihenfolge von Knoten
- 12. Ermitteln der Länge von Codeabschnitten
- 13. Ermitteln der Fläche von Shapefiles
- 14. Ermitteln der Position von Koordinaten
- 15. Ermitteln der Länge von Nvarchar
- 16. Serverseitiges Clustering?
- 17. SAVE-Gruppen Clustering von r
- 18. spektrale Clustering
- 19. Ermitteln der Geolokalisierung von der IP-Adresse
- 20. Markov Clustering
- 21. Auswirkungen von AWS-Konto-IDs
- 22. Vorbereitung der Daten für die Verwendung Clustering
- 23. Elasticsearch-Clustering hinter der UFW-Firewall
- 24. Schneiden Dendrogram/Clustering Tree von SciPy in der Höhe
- 25. Auswirkungen der Änderung MemCached maximale Blockgröße
- 26. DBSCAN vs OPTICS für automatische Clustering
- 27. Überschreiben der Abstandsmetrik in Clustering-Algorithmen
- 28. C++ Auswirkungen der Ignorierung Ausnahme vom Konstruktor
- 29. Clustering großen Vektorraum
- 30. Ermitteln der Gesamtsumme der Rasteransicht