1

Ich versuche Stanford Sentiment Analysis Dataset zu verwenden, um einige Sentiment Analyse Forschung zu tun. Ich lade den Datensatz enter link description here von http://nlp.stanford.edu/sentiment/index.html. Nach dem Lesen der Readme-Datei habe ich immer noch etwas Verwirrung.Wie Stanford Sentiment Analysis Dataset verwenden

Erste Frage, in "50446" line of Dictionary.txt Datei, zeigt es die "Phrase ids" dieser Satz ist "No.226166" Also, wenn ich in sentiment_lable.txt Datei zu suchen, ich in der "226168" line finden Sie die "feedback werte" der Phrase "No.226166" ist 0.69444. Aber in Zeile "50445" von dictionary.txt Datei, ist dieser Satz gleich dem Satz in "50446" Zeile. Aber dieser Satz hat verschiedene "Sentiment-Werte" in der sentiment_lable.txt-Datei, warum? !!! Die zweite Frage, in einigen Sentiment Analyse Papier, verwenden sie nicht nur Satz in voller Länge im Training Satz zu trainieren Modell, sondern auch beschriftete Phrasen, die als Teilteile der Trainingssätze Modell trainieren auftreten. Aber ich finde einen Satz in dictionary.txt Datei wie Zeile 2 und 3, die nutzlos sind, sollte ich diese nutzlosen Sätze verwenden, um mein Modell zu trainieren?

Antwort

0

Das Format der Datei dictionary.txt ist

<Phrase>|<ID> 

Das Format sentiment_labels.txt ist

<Phrase ID>|<Score> 

So zum Beispiel

id: 50445 phrase: control of both his medium and his message 
score: .777 

id: 50446 phrase: controlled display of murderous vulnerability ensures that malice has a very human face 
score: .444