5

Wie klassifizieren und klassifizieren Nachrichtenagenturen wie google news automatisch Dokumente zu neuen Themen wie "obamas Budget 2011"?neue Trends bei eingehenden Daten blind klassifizieren

Ich habe einen Stapel von Artikeln mit Baseball-Daten wie Spielernamen und Relevanz für den Artikel (danke, opencalais) getaggt, und würde gerne eine Google News-Stil-Schnittstelle erstellen, die Ranks und zeigt neue Beiträge, wie sie kommen in besonders aufstrebenden Themen. Ich nehme an, dass ein Naive Bayes Classifier mit einigen statischen Kategorien trainiert werden könnte, aber das erlaubt nicht wirklich Trends zu verfolgen wie "dieser Spieler wurde gerade an dieses Team verkauft, diese anderen Spieler waren auch involviert".

+0

Warum das Python-Tag? – mjv

+0

Whoops, meine Schuld. Es ist jetzt weg. Danke. – Carson

+0

Meinst du, wie es auf ungesehene Themen verallgemeinern kann? – bayer

Antwort

4

Kein Zweifel, Google News kann andere Tricks (oder sogar eine Kombination davon), aber einen relativ billigen Trick, rechnerisch, schließen Themen aus Freitext würde den NLP Begriff ausnutzen, dass ein Wort seine Bedeutung bekommt nur bei Verbindung mit anderen Wörtern.

  • POS (part-of-speech) markieren Sie den Text
    Wir wollen wahrscheinlich mehr auf Substantive und vielleicht noch mehr konzentrieren:
    Ein Algorithmus anfälligen Kategorien neues Thema aus mehreren Dokumenten entdecken könnte wie folgt skizziert werden usw. benannten Entitäten (wie Obama oder New England)
  • Normalisieren der Text
    insbesondere gebeugte Wörter durch ihre gemeinsamen Stamm ersetzen. Vielleicht ersetzen Sie sogar einige Adjektive durch eine entsprechende benannte Entität (z. B. Paris ==> Paris, legal ==> law)
    Entfernen Sie auch Rauschwörter und Rauschausdrücke.
  • einige Wörter aus einer Liste manuell gepflegt „Strom/wiederkehrende heiße Worte“ Diese (Superbowl, Wahlen, Skandal ...)
    identifizieren in den nachfolgenden Schritten verwendet werden können, um mehr Gewicht zu einigen N-Gramm
  • bereitzustellen Zählen Sie alle in den Dokumenten gefundenen N-Gramme auf (wobei N 1 bis 4 oder 5 ist)
    Achten Sie darauf, die Anzahl der Vorkommen jedes N-Gramms innerhalb eines Dokuments und die Anzahl der Dokumente, die a angeben, separat zu zählen gegebenes N-Gramm
  • Die am häufigsten genannten N-Gramme (dh die in den meisten Dokumenten zitierten) sind wahrscheinlich die Topics.
  • Identifizieren Sie die bestehenden Themen (aus einer Liste von bekannten Themen)
  • [optional] manuell die neuen Themen

Dieses allgemeine Rezept auch andere Attribute der Dokumente und der Text darin zu nutzen, kann geändert überprüfen . Zum Beispiel kann der Dokumentursprung (zB cnn/sports vs. cnn/politics ...) verwendet werden, um domainspezifische Lexika auszuwählen. In einem anderen Beispiel kann der Prozess die Wörter/Ausdrücke aus dem Dokumenttitel (oder anderen Bereichen des Textes mit einem bestimmten Aufschlag) mehr oder weniger stark betonen.