Ich versuche, Tweets zu bündeln, um Eilmeldungen zu erkennen. Ich verwende DBSCAN als Clustering-Technik. Ich kann keine guten Werte für epsilon und min_sample_points erreichen. Um die Tweets zu clustern, mache ich Chargen von 2000 Tweets und verwende das Clustering Algo darauf. Für feauture extraction verwende ich den tf-idf vectorizer aus dem Paket scikit.learn. Verwenden von max_df = 0.6 und min_df = 5 und Bi-Grammen als Parameter für den Vektorisierer. Das Ergebnis im Allgemeinen zeigt die meisten Tweets als Ausreißer oder viele zufällige Tweets in einem einzelnen Cluster. Beispiel von Werten, die ich benutzt habe - eps = 0.2 und min_samples = 8. Ich vermeide auch den K-Means-Algorithmus, da die Anzahl der Cluster (k) für dieses Problem nicht vorausschauend sein kann und die Form des Clusters nicht notwendigerweise sphärisch sein muss.Die Parameter von DBSCAN Algo für Tweet Clustering
Antwort
Für aktuelle Nachrichten gibt es viel bessere Ansätze als Clustering.
Textdaten und insbesondere Twitter ist unglaublich laut. Viele Tweets sind nur kompletter Unsinn. Aber das Hauptproblem ist, dass sie zu kurz sind. Wenn Sie nur ein paar Wörter haben, gibt es zu wenig Daten, um die Entfernung zu messen. "Das Auto hat eine Wand getroffen." und "Ein Auto an der Wall Street" haben sehr ähnliche Wörter (basierend auf TF-IDF), aber sie haben eine sehr unterschiedliche Bedeutung.
Also ich bin nicht überrascht, dass das nicht gut funktioniert. Es ist nicht die Clusterbildung, die "fehlschlägt", sondern Ihre Distanzfunktion.
eingegeben wird Könnten Sie dann alternative Distanzmaße vorschlagen? .. Ich filtere die Tweets, um nur Nachrichten Tweets mit einem multinomialen Naives Bayes, die eine Genauigkeit von 89% zeigt erhalten ..das Clustering wird nur auf diesen Nachrichten-Tweets durchgeführt. – Walker894
Ich denke, es ist ein Problem der Daten, nicht der Abstand messen. –
- 1. Data Mining: Clustering von nominalen Attributen durch DBSCAN algo
- 2. DBSCAN vs OPTICS für automatische Clustering
- 3. Eingabematrix und Parameter für den DBSCAN-Algorithmus von scikit-learn
- 4. Eingabewerte für den DBSCAN-Algorithmus definieren
- 5. Incremental Clustering mit ELKI
- 6. Ist minpts = 4 die beste Einstellung für jedes Dataset, das den DBSCAN-Algorithmus für das Clustering verwendet?
- 7. Gibt es Clustering-Methode, die Neuordnung verhindert?
- 8. Clustering großen Vektorraum
- 9. ELKI GUI keine Clustering-Ergebnisse für hierarchische Clustering
- 10. Beitrag mit Tweet Tweet
- 11. Vorbereitung der Daten für die Verwendung Clustering
- 12. die URL und @REPLIES von einem Tweet
- 13. Wie bekomme ich Tweet ID von Tweet Ereignis
- 14. Die tweetID eines Tweet in tweetinvi finden
- 15. Haskell: String Splitting. Learning algo
- 16. Clustering Länge und Breite GPS-Daten
- 17. DBSCAN auf Funken: welche Implementierung
- 18. Clustering-Algorithmus für Mapping-Anwendung
- 19. std :: bad_alloc Fehler in DBSCAN
- 20. Clustering-Ansatz für C# -Anwendung
- 21. Clustering-Schlüssel bestellt von
- 22. RSA algo in symbian C++
- 23. Vergleichen Sie die Clustering-Algorithmen in R
- 24. mit twitter4j für die Integration in Android Tweet
- 25. Spectral Clustering vs hierarchische Clustering
- 26. Grid-Suche für Hyperparameter-Evaluierung von Clustering in scikit-learn
- 27. Welcher Cluster-Algorithmus eignet sich am besten für das Clustering eindimensionaler Features?
- 28. Einen Tweet mit Oauth veröffentlichen
- 29. Warum Limit für Tweet mit twitter4j
- 30. DBSCAN Fehler mit Cosinus-Metrik in Python
Ich schien mein eigenes Problem gelöst zu haben. Das Problem war, dass die Datenquelle für mich die Twitter-Streaming-API war, die nur etwa 1% der gesamten Tweets in einem bestimmten Zeitraum bereitstellt. Die Tweets in einem Batch von rund 2000 Tweets sind die meisten sehr unterschiedlich. Das Aufspüren der min_sample Punkte = 1 löst das Problem und ein eps von ungefähr 0.5-0.8 ist gut. Jetzt betrachten Sie ein Cluster, das Sie die Cluster mit Größe 1 ignorieren können. Entsprechend Ihrem Problem können Sie eine Schwelle für haben die Clustergröße, um es als würdigen Cluster zu markieren. Der Schlüssel zur Auswahl von eps lag in der Anzeige der Sparse-Matrix, die in clusteringAlgo – Walker894