Ich bin neu auf dem Gebiet der NLP und Sentiment-Analyse im Besonderen. Mein Ziel ist es, das Stanford CoreNLP-Sentimentmodell zu trainieren. Ich bin mir bewusst, dass die Sätze, die als Trainingsdaten zur Verfügung gestellt werden, im folgenden Format sein sollten.Stanford corenlp Gefühl Trainingssatz
(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))
Ich bin mir auch bewusst, dass ich mit dem folgenden Befehl das Gefühl Trainingsmodell mit meinen eigenen Trainingsdaten erstellen kann.
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
Meine Frage ist, habe ich Zugriff auf den Trainingsdatensatz, der verwendet wurde, um das Modell zu trainieren? Wenn ja, wo finde ich es dann? Gibt es auch eine Möglichkeit, dem ursprünglichen Trainingsdatensatz neue Sätze hinzuzufügen und das Train-Modell zu erstellen?
Siehe [Wie die Stanford NLP Sentiment Analysis Tool trainieren] (http://stackoverflow.com/questions/22586658/how-to-train-the-stanford-nlp- Stimmungsanalyse-Tool). –