Ich analysiere den GDELT-Datensatz und möchte thematische Cluster bestimmen. Die GDELT vereinfacht erheblich die Analyse von Artikeln und extrahiert Ereignisse. Als Teil davon erkennt es, sagen wir, 250 "Themen" und kennzeichnet jedes "Ereignis", das es in einer Spalte aufspeichert, eine durch Semikolons getrennte Liste aller in dem Artikel identifizierten Themen.Suche nach geeigneten Clustering-Algorithmus
Mit dieser Präambel, ich habe gewonnen, für das Jahr 2016, eine Liste von rund 350.000 Semikolon getrennte Themenlisten, wie diese beiden:
- TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC; Militär; TAX_MILITARY_TITLE ; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT; SEEVERKEHRS; MANMADE_DISASTER_IMPLIED;
- CRISISLEX_CRISISLEXREC, Bildung, SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD, Gesetzgebung, EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;
Wie Sie sehen können, enthalten beide Listen beide "TAX_FNACT" und "CRISISLEX_CRISISLEXREC". Daher ist "TAX_FNACT; CRISISLEX_CRISISLEXREC" ein Cluster mit zwei Elementen. Ein besseres Verständnis von GDELT zeigt uns, dass es kein besonders nützlicher Cluster ist, aber trotzdem einer.
Was Ich mag würde, am besten tun, ist ein Wörterbuch von Listen zusammenstellen. Der Schlüssel für das Wörterbuch ist die Anzahl der Elemente im Cluster und der Wert ist eine Liste von Tupeln aller Themencluster mit dieser "Schlüsselanzahl" von Elementen gepaart mit der Häufigkeit, mit der der Cluster erschienen ist. Dieser ideale Algorithmus würde laufen, bis er den größten Cluster identifiziert hat.
Hat ein Algorithmus bereits vorhanden sein, dass ich für diesen Zweck verwenden kann, und wenn ja, was ist es genannt? Wenn ich raten müsste, würde ich mir vorstellen, dass wir etwas erstellt haben, um X-Item-Cluster zu extrahieren, und dann würde ich einfach von 2->? bis ich keine Ergebnisse bekomme.
vielleicht Data Science http://datascience.stackexchange.com/ oder Informatik http://cs.stackexchange.com/ ist ein besserer Ort, um diese Frage zu stellen. – rsm
Danke - ich war mir nicht sicher. Ich werde in Datascience nachfragen. – jeromeyers
Fragen nicht erneut stellen. Kennzeichnen Sie, dass ein Moderator die Frage migriert. Die cs Empfehlung ist schlecht, ich würde eher Statistiken vorschlagen. –