2017-02-22 9 views
0

Ich analysiere den GDELT-Datensatz und möchte thematische Cluster bestimmen. Die GDELT vereinfacht erheblich die Analyse von Artikeln und extrahiert Ereignisse. Als Teil davon erkennt es, sagen wir, 250 "Themen" und kennzeichnet jedes "Ereignis", das es in einer Spalte aufspeichert, eine durch Semikolons getrennte Liste aller in dem Artikel identifizierten Themen.Suche nach geeigneten Clustering-Algorithmus

Mit dieser Präambel, ich habe gewonnen, für das Jahr 2016, eine Liste von rund 350.000 Semikolon getrennte Themenlisten, wie diese beiden:

  • TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC; Militär; TAX_MILITARY_TITLE ; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT; SEEVERKEHRS; MANMADE_DISASTER_IMPLIED;
  • CRISISLEX_CRISISLEXREC, Bildung, SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD, Gesetzgebung, EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;

Wie Sie sehen können, enthalten beide Listen beide "TAX_FNACT" und "CRISISLEX_CRISISLEXREC". Daher ist "TAX_FNACT; CRISISLEX_CRISISLEXREC" ein Cluster mit zwei Elementen. Ein besseres Verständnis von GDELT zeigt uns, dass es kein besonders nützlicher Cluster ist, aber trotzdem einer.

Was Ich mag würde, am besten tun, ist ein Wörterbuch von Listen zusammenstellen. Der Schlüssel für das Wörterbuch ist die Anzahl der Elemente im Cluster und der Wert ist eine Liste von Tupeln aller Themencluster mit dieser "Schlüsselanzahl" von Elementen gepaart mit der Häufigkeit, mit der der Cluster erschienen ist. Dieser ideale Algorithmus würde laufen, bis er den größten Cluster identifiziert hat.

Hat ein Algorithmus bereits vorhanden sein, dass ich für diesen Zweck verwenden kann, und wenn ja, was ist es genannt? Wenn ich raten müsste, würde ich mir vorstellen, dass wir etwas erstellt haben, um X-Item-Cluster zu extrahieren, und dann würde ich einfach von 2->? bis ich keine Ergebnisse bekomme.

+0

vielleicht Data Science http://datascience.stackexchange.com/ oder Informatik http://cs.stackexchange.com/ ist ein besserer Ort, um diese Frage zu stellen. – rsm

+0

Danke - ich war mir nicht sicher. Ich werde in Datascience nachfragen. – jeromeyers

+0

Fragen nicht erneut stellen. Kennzeichnen Sie, dass ein Moderator die Frage migriert. Die cs Empfehlung ist schlecht, ich würde eher Statistiken vorschlagen. –

Antwort

1

Clustering wird hier nicht gut funktionieren.

Was Sie beschreiben, sieht eher wie häufige Itemset Mining aus. Die Aufgabe besteht darin, häufige Kombinationen von "Elementen" in Listen zu finden.

+0

Cool, genau das, was ich gesucht habe. Vielen Dank. – jeromeyers