2017-11-20 2 views
0

Ich verwende den pycorenlp Client, um mit dem Stanford CoreNLP Server zu sprechen. In meinem Setup pipelineLanguage zu german wie dieses Ich gründe:StanfordCoreNLP - Einstellung pipelineLanguage auf Deutsch funktioniert nicht?

from pycorenlp import StanfordCoreNLP 

nlp = StanfordCoreNLP('http://localhost:9000') 

text = 'Das große Auto.' 

output = nlp.annotate(text, properties={ 
    'annotators': 'tokenize,ssplit,pos,depparse,parse', 
    'outputFormat': 'json', 
    'pipelineLanguage': 'german' 
    }) 

jedoch von den Blicken würde ich sagen, dass es nicht funktioniert:

output['sentences'][0]['tokens'] 

zurückkehren wird:

[{'after': ' ', 
    'before': '', 
    'characterOffsetBegin': 0, 
    'characterOffsetEnd': 3, 
    'index': 1, 
    'originalText': 'Das', 
    'pos': 'NN', 
    'word': 'Das'}, 
{'after': ' ', 
    'before': ' ', 
    'characterOffsetBegin': 4, 
    'characterOffsetEnd': 9, 
    'index': 2, 
    'originalText': 'große', 
    'pos': 'NN', 
    'word': 'große'}, 
{'after': '', 
    'before': ' ', 
    'characterOffsetBegin': 10, 
    'characterOffsetEnd': 14, 
    'index': 3, 
    'originalText': 'Auto', 
    'pos': 'NN', 
    'word': 'Auto'}, 
{'after': '', 
    'before': '', 
    'characterOffsetBegin': 14, 
    'characterOffsetEnd': 15, 
    'index': 4, 
    'originalText': '.', 
    'pos': '.', 
    'word': '.'}] 

Dies sollte eher wie

 Das große Auto 
POS: DT  JJ NN 
sein

Es scheint mir, dass die Einstellung 'pipelineLanguage': 'de' aus irgendeinem Grund nicht funktioniert.

Ich habe

ausgeführt
java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 

, um den Server zu starten.


Ich erhalte die folgende aus dem Logger:

[main] INFO CoreNLP - StanfordCoreNLPServer listening at /0:0:0:0:0:0:0:0:9000 
[pool-1-thread-3] ERROR CoreNLP - Failure to load language specific properties: StanfordCoreNLP-german.properties for german 
[pool-1-thread-3] INFO CoreNLP - [/127.0.0.1:60700] API call w/annotators tokenize,ssplit,pos,depparse,parse 
Das große Auto. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.TokenizerAnnotator - No tokenizer type provided. Defaulting to PTBTokenizer. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos 
[pool-1-thread-3] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3words-distsim.tagger ... done [0.5 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model file: edu/stanford/nlp/models/parser/nndep/english_UD.gz ... 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99996, Elapsed Time: 8.645 (s) 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [9.8 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator parse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.common.ParserGrammar - Loading parser from serialized file edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz ... done [0.3 sec]. 

Anscheinend ist der Server die Modelle für die englische Sprache wird geladen - ohne mich darüber zu warnen.

Antwort

1

In Ordnung, ich habe gerade die Modelle Glas für German von der website heruntergeladen und in das Verzeichnis, wo ich den Server z.

~/Downloads/stanford-corenlp-full-2017-06-09 $ 

Nach dem erneuten Ausführen des Servers wurde das Modell erfolgreich geladen.

[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator tokenize 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ssplit 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator pos 
[pool-1-thread-3] INFO edu.stanford.nlp.tagger.maxent.MaxentTagger - Loading POS tagger from edu/stanford/nlp/models/pos-tagger/german/german-hgc.tagger ... done [5.1 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator depparse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Loading depparse model file: edu/stanford/nlp/models/parser/nndep/UD_German.gz ... 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.Classifier - PreComputed 99984, Elapsed Time: 11.419 (s) 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.nndep.DependencyParser - Initializing dependency parser ... done [12.2 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator parse 
[pool-1-thread-3] INFO edu.stanford.nlp.parser.common.ParserGrammar - Loading parser from serialized file edu/stanford/nlp/models/lexparser/germanFactored.ser.gz ... done [1.0 sec]. 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator lemma 
[pool-1-thread-3] INFO edu.stanford.nlp.pipeline.StanfordCoreNLP - Adding annotator ner 
[pool-1-thread-3] INFO edu.stanford.nlp.ie.AbstractSequenceClassifier - Loading classifier from edu/stanford/nlp/models/ner/german.conll.hgc_175m_600.crf.ser.gz ... done [0.7 sec]. 
Verwandte Themen