2016-03-26 4 views
0

Ich habe Tweets von einem bestimmten Konto, möchte ich durch jeden tweet gehen und in die Klasse Labels wie Unternehmen zu kategorisieren, Musik, Sport usw.Multi-Klasse Einstufung in R

Mein Ansatz Trainingsdaten für die Erstellung ist zuweisen paar Stichworte zu jeder Klasse Etikett, zum Beispiel

  1. Schlüsselwörter für „Business“ könnte sein - Unternehmer, job, GDP ...
  2. Schlüsselwörter für „Musik“ könnte - Songs, Genre, Album ...

CSV-Datei für Trainingsdaten hat 2 Spalten 1. Keywords 2. Klasse

Ist dies der richtige Weg zu gehen?

Vielen Dank im Voraus!

Antwort

0

Es scheint, als ob das, was Sie versuchen, einer Wörterbuchmethode ähnlich ist. Es ist ziemlich einfach, ein Wörterbuch auf ein Korpus von Texten anzuwenden, aber da Sie Tweets verwenden, würde ich Kenneth Bennoits exzellentes Quanteda Paket empfehlen.

Genauer gesagt können Sie ein benutzerdefiniertes Wörterbuch (eine s3-Klasse, glaube ich) aus einer Liste von Begriffen erstellen.

https://cran.r-project.org/web/packages/quanteda/quanteda.pdf

und dann das Wörterbuch mit applyDictionary anzuwenden. Sie erhalten eine schöne Tabelle mit dem Text und den Wörterbuch-Tasten, wie folgt:

docs christmas opposition taxglob taxregex country 
    text1   1   1  1  0  0 
    text2   0   0  1  0  2 
+0

Ich habe es ausprobiert, das war genau das, was ich gesucht habe. Ich danke dir sehr! –

+0

Kein Problem. Freue mich zu helfen. Quanteda ist definitiv ein großartiges Textanalysewerkzeug. Auch gut, weil es Twitter versteht! – lmkirvan

+0

Es ist eine dumme Frage zu stellen, aber ich kann keine Lösung finden. Ich habe "Sport" gespeichert, "trage" in meinem Wörterbuch, aber wenn ich auf Wörter stoße, die mit ihnen in Beziehung stehen, wie "Sport", "trägt", ist es nicht in der Lage, sie zu identifizieren. Irgendwelche Vorschläge, wie man das macht? –