2017-06-14 3 views
-1

Gibt es irgendwelche Corpus kostenlos auf der Grundlage von News Artikeln und Schlagzeilen?Free Text Mining Corpora von Nachrichtenartikeln und Schlagzeilen

Ich suche nach Bereichen, in denen ich Text Mining und Analyse machen kann, für die ich ein Korpus von verwandten Daten brauche.

Wo kann ich sie frei herunterladen?

+0

Frei, wie in "Freibier"? Wenn ja, ich glaube, du hast kein Glück. Und selbst wenn Sie oder Ihre Forschungsgruppe Teil des [LDC] (https://www.ldc.upenn.edu/) sind, gibt es auch nicht frei, wie in "frei lizensiert" (aber auf Kosten), AFAIK . Nachrichten sind aufgrund sehr restriktiver Lizenzbedingungen und Autorenrechte schwer zu verteilen. Sie sollten diese Daten wahrscheinlich am besten selbst abschaben, ehrlich gesagt ... Aber ich bin froh, dass ich mich als falsch erwiesen habe! – fnl

+0

Okay. Entschuldigung für die Mehrdeutigkeit. Ich meinte eigentlich Open Source. ! –

+1

Diese Art von Frage ist off-topic für SO. Es gibt jedoch mindestens einen Datensatz, der in den Sinn kommt: https://archive.ics.uci.edu/ml/datasets/reuters-21578+text+categorization+collection – emilliman5

Antwort

0

Wie bereits erwähnt, ist diese Art von Frage off-topic für SO, aber da ich über eine gute Datenmenge weiß, die von Interesse sein könnte, teile ich die Informationen.

Newyork Times 2013 (NYT2013)

  • New York Times, CNN und BBC News-Artikel und Benutzer Kommentare zu vier wichtige Ereignisse geschehen im Jahr 2014
  • New York Times Nachrichten und Benutzer Kommentare 2013

Verwendet in der Arbeit - Socially-Informed Timeline Generation for Complex Events. Datensatz kann von here heruntergeladen werden.

Verwandte Themen