2016-03-30 8 views
1

Ich versuche ein LSTM-Modell für die Aufgabe der Stimmungseinteilung in kurzen Texten wie Produktbewertungen und Tweets zu trainieren.Was ist die minimale Größe des Trainingssatzes, die für die Aufgabe der Stimmungseinteilung in kurzen Texten benötigt wird?

Ich suche nach einem Trainingssatz, der positiv/negativ/neutral kennzeichnet, gibt es so etwas (frei für die Forschung) da draußen, das wirklich auf menschlichen Tags basiert und nicht auf Starts oder Emoticons? Ich fand nur kleine Trainingssätze, die mich zu schlechten Ergebnissen führten. Ich habe versucht, die Größe meines Netzwerks und gestapelte Ebenen zu erhöhen, aber keine Verbesserung.

Was ist die Mindestgröße für ein solches Training, um vernünftige Ergebnisse zu erhalten (F1> 0.8).

Antwort

0

Sie müssten wirklich nur eine Liste von jeweils 100 negativen und positiven Adjektiven erstellen.

See:
http://na2english.wikispaces.com/file/view/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf/400672720/ADJECTIVES%20TO%20DESCRIBE%20FILMS.pdf

http://arxiv.org/ftp/arxiv/papers/1011/1011.4623.pdf

Offensichtlich sie zitieren, wenn Sie sie verwenden, aber die Sprache ist frei, so dass Sie die für Ihre Arbeit nutzen können.

Wahrscheinlich wichtiger als die Größe der Datenbank, die Sie konstruieren, werden Wörter auswählen, die auf Ihre spezifische Anwendung für erhöhte Wirksamkeit abzielen.

Zielen Sie dieses Projekt auf eine bestimmte kommerzielle Nutzung oder eine allgemeine Forschungsbemühung?

Verwandte Themen