Ich versuche Stanford Sentiment Analysis Dataset zu verwenden, um einige Sentiment Analyse Forschung zu tun. Ich lade den Datensatz enter link description here von http://nlp.stanford.edu/sentiment/index.html. Nach dem Lesen der Readme-Datei habe ich immer noch etwas Verwirrung.Wie Stanford Sentiment Analysis Dataset verwenden
Erste Frage, in "50446" line of Dictionary.txt Datei, zeigt es die "Phrase ids" dieser Satz ist "No.226166" Also, wenn ich in sentiment_lable.txt Datei zu suchen, ich in der "226168" line finden Sie die "feedback werte" der Phrase "No.226166" ist 0.69444. Aber in Zeile "50445" von dictionary.txt Datei, ist dieser Satz gleich dem Satz in "50446" Zeile. Aber dieser Satz hat verschiedene "Sentiment-Werte" in der sentiment_lable.txt-Datei, warum? !!! Die zweite Frage, in einigen Sentiment Analyse Papier, verwenden sie nicht nur Satz in voller Länge im Training Satz zu trainieren Modell, sondern auch beschriftete Phrasen, die als Teilteile der Trainingssätze Modell trainieren auftreten. Aber ich finde einen Satz in dictionary.txt Datei wie Zeile 2 und 3, die nutzlos sind, sollte ich diese nutzlosen Sätze verwenden, um mein Modell zu trainieren?