Dieses Problem gliedert sich unter dem Gesichtspunkt des maschinellen Lernens in einige Teilprobleme auf.
Zuerst werden Sie herausfinden wollen, welche Eigenschaften der Nachrichtengeschichten Sie basierend gruppieren möchten. Eine übliche Technik ist es, 'word bags' zu verwenden: nur eine Liste der Wörter, die im Hauptteil der Geschichte oder im Titel erscheinen. Sie können einige zusätzliche Verarbeitungsschritte ausführen, z. B. das Entfernen von allgemeinem Englisch "stop words", die keine Bedeutung haben, z. B. "das", "weil". Sie können sogar porter stemming verwenden, um Redundanzen mit mehreren Wörtern und Wortendungen wie "-ion" zu entfernen. Diese Liste von Wörtern ist der Merkmalsvektor jedes Dokuments und wird verwendet, um Ähnlichkeit zu messen. Möglicherweise müssen Sie eine Vorverarbeitung durchführen, um HTML-Markup zu entfernen.
Zweitens müssen Sie eine Ähnlichkeitsmetrik definieren: ähnliche Storys haben eine hohe Ähnlichkeit. Wenn man sich den Textbeutel nähert, ähneln sich zwei Geschichten, wenn sie ähnliche Wörter haben (ich bin hier vage, weil es Unmengen von Dingen gibt, die man ausprobieren kann, und man muss sehen, welche am besten funktionieren).
Schließlich können Sie einen klassischen Clusteralgorithmus verwenden, z. B. k-means clustering, der die Storys basierend auf der Ähnlichkeitsmetrik gruppiert.
Zusammenfassend: Nachrichtenstory in einen Feature-Vektor umwandeln -> definieren Sie eine Ähnlichkeitsmetrik basierend auf diesem Feature-Vektor -> unüberwachtes Clustering.
Schauen Sie sich Google scholar, gab es wahrscheinlich einige Papiere zu diesem speziellen Thema in der jüngsten Literatur. Viele dieser Dinge, die ich gerade besprochen habe, werden in den meisten Sprachen in den Modulen für natürliche Sprachverarbeitung und maschinelles Lernen implementiert.
Große Antwort! Genau das habe ich gesucht. Kurze Folgefrage. Wenn ich nach einem Entwickler mit diesen Fähigkeiten suche, welche Art von Dingen sollte ich fragen? Ich weiß nicht einmal, wie dieses Studienfach heißt. – Randy
Suchen Sie nach einem Informatikstudenten, der entweder einen Kurs mit "natürlicher Sprachverarbeitung" oder "maschinellem Lernen" belegt hat oder bereits Erfahrung mit diesen hat. Ihre Frage war im Zusammenhang mit dem maschinellen Lernen sehr einfach zu beantworten, also fragen Sie sie einfach, wie sie etwas umsetzen würden, das Nachrichtengeschichten zusammenfasst. Außerdem funktionieren solche Projekte nicht immer, weil es viele Dinge gibt, die in ML und NLP wringen können - aber wenn es funktioniert, ist es ziemlich toll. –