2016-05-19 5 views
2

Ich versuche, den Stanford Neural Network Dependency Parser zu trainieren, um die Phrasenähnlichkeit zu überprüfen.Woher bekomme ich CoNLL-X Trainingsdaten?

Die Art, wie ich versuchte:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz 

Der Fehler, den ich ist bekam:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt 
Dev File: null 
Model File: modelOutputFile.txt.gz 
Embedding File: null 
Pre-trained Model File: null 
################### Train 
#Trees: 1 
0 tree(s) are illegal (0.00%). 
1 tree(s) are legal but have multiple roots (100.00%). 
0 tree(s) are legal but not projective (0.00%). 
################### 
#Word: 3 
#POS:3 
#Label: 2 
################### 
#Transitions: 3 
#Labels: 1 
ROOTLABEL: null 
Random generator initialized with seed 1459831358061 
Exception in thread "main" java.lang.NullPointerException 
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile. (DependencyParser.java:636) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247) 

Die Hilfe im Code eingebettet, so dass die Trainingsdatei ein sein sollte - „Path to a Baumschulbank im CoNLL-X Format ".

Weiß jemand, wo ich einige CoNLL-X Trainingsdaten zum Trainieren finden kann? Ich gab Trainingsdatei, aber nicht die Datei einbetten und bekam diesen Fehler. Meine Vermutung ist, wenn ich die Einbettungsdatei geben könnte, könnte es funktionieren.

Bitte werfen Sie etwas Licht auf die Trainingsdatei & Einbettung Datei, die ich verwenden sollte und wo ich sie finden kann.

Antwort

2

CoNLL-X Baumsuche

Sie können die Trainingsdaten für dänische bekommen, Niederländisch, Portugiesisch und Schwedisch verfügbar kostenlos here. Für andere Sprachen müssen Sie wahrscheinlich leider eine Baumbank von LDC lizenzieren (Details für viele Sprachen auf dieser Seite).

Universal Dependencies sind im CoNLL-U-Format, das in der Regel mit etwas Arbeit in CoNLL-X-Format konvertiert werden kann.

Schließlich gibt es eine große Liste von Treebanks und deren Verfügbarkeit auf this page. Sie sollten in der Lage sein, viele der Abhängigkeitsbaumbanken in dieser Liste in das CoNLL-X-Format zu konvertieren, wenn sie nicht bereits in diesem Format sind.

Training der Stanford Neural Net Dependency Parser

Von this page: Die Einbettung Datei ist optional, aber die Baumbank ist es nicht. Welche Dateien für die Baumstruktur und für die Einbettung am besten geeignet sind, hängt davon ab, welche Sprache und welchen Texttyp Sie analysieren möchten. Im Idealfall würden Sie so viele Daten wie möglich in der Domain/dem Genre trainieren, die Sie analysieren möchten.

+0

Dank @dmcc Ich habe eingebettete Datei weggelassen und Conll Daten gefüttert. Es läuft jetzt. – Aaron

Verwandte Themen