2016-06-10 2 views
0

einen Kommentar Text wie mit: warSätze sind nicht gespaltet immer mit CoreNLP Server

"Das Tutu ist für meine nichte ... sie war begeistert !!! Es passte gut und werden sie für einige Zeit passen mit der elastischen Taille .... großer Qualität und sehr preiswert ich sie noch eine leicht kaufen würde "

und an den CoreNLP Server zu senden:.

properties = { 
    "tokenize.whitespace": "true", 
    "annotators": "tokenize, ssplit, pos, lemma, ner, parse", 
    "outputFormat": "json" 
} 


if not isinstance(paragraph, str): 
    paragraph = unicodedata.normalize('NFKD', paragraph).encode('ascii', 'ignore') 

result = self.nlp.annotate(paragraph, properties=properties) 

gibt mir dieses Ergebnis:

{ 
    u'sentences':[ 
     { 
     u'parse':u'SENTENCE_SKIPPED_OR_UNPARSABLE', 
     u'index':0, 
     u'tokens':[ 
      { 
       u'index':1, 
       u'word':u'The', 
       u'lemma':u'the', 
       u'pos':u'DT', 
       u'characterOffsetEnd':3, 
       u'characterOffsetBegin':0, 
       u'originalText':u'The' 
      }, 
      { 
       u'index':2, 
       u'word':u"tutu's", 
       u'lemma':u"tutu'", 
       u'pos':u'NNS', 
       u'characterOffsetEnd':10, 
       u'characterOffsetBegin':4, 
       u'originalText':u"tutu's" 
      }, 
      // ... 
      { 
       u'index':34, 
       u'word':u'easily.', 
       u'lemma':u'easily.', 
       u'pos':u'NN', 
       u'characterOffsetEnd':187, 
       u'characterOffsetBegin':180, 
       u'originalText':u'easily.' 
      } 
     ] 
     } 
    ] 
} 

Ich bemerkte, dass Sätze nicht gespaltet zu werden - eine Idee, was das Problem sein könnte?

Wenn ich die http://localhost:9000 webinteface bin mit dann sehe ich diese Sätze richtig

Antwort

1

.. gespaltet werden Sie wissen nicht, warum, aber das Problem von tokenize.whitespace zu kommen schien. Ich habe es gerade kommentiert:

properties = { 
    #"tokenize.whitespace": "true", 
    "annotators": "tokenize, ssplit, pos, lemma, ner, parse", 
    "outputFormat": "json" 
} 
Verwandte Themen