2017-05-12 3 views
0

Ich möchte die chinesischen Segenter mit neuen Daten und ich entwickelte ein Wörterbuch und eine serialisierte Treebank Textdatei.Zug chinesischen Segmenter mit benutzerdefinierten Quellen

Mein Problem ist, dass ich verstehe, oder finden Dokumentationen nicht über den Unterschied zwischen:

-sighanCorporaDict Daten

und

-trainFile train.txt

Kann mir jemand helfen mit diesem Problem. Meine chinesischen Datensätze sind buddhistische antike Texte, die es schwer machen, Ressourcen wie -sighanCorporaDict zu ersetzen?

Alle besten

Andreas

Antwort

1

Es gibt hier Dokumentation für Ihre eigenen chinesischen segmenter Ausbildung:

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDict ist ein Verzeichnis mit Ressourcen der Segmentierer braucht ... dies sollte in der Segmentierung

auf data festgelegt werden 10

trainFile sollte eine Liste von Sätzen sein, die richtig segmentiert wurden (durch Leerzeichen getrennte Wörter).

+0

Leider erklärt diese Seite nicht die Parameter. Ich dachte der Parameter -serDictionary ist die Liste für die bekannten Wörter, die ich im Voraus vorbereiten muss. Was ist der Unterschied zwischen -serDictionary und -sighanCorporaDict, was im Grunde ein Verzeichnis ist? – Andreas

+0

Ich war falsch. In der Segmenter-Verteilung befindet sich ein Datenverzeichnis. Sie können den Ordner hier herunterladen: https://nlp.stanford.edu/software/segmenter.shtml ... Innerhalb dieses heruntergeladenen Ordners befindet sich ein Verzeichnis namens data, und das ist es, was Sie für die Einstellung sighanCorporaDict verwenden möchten. Wenn Sie sich den Code ansehen, sehen Sie, dass er versucht, Ressourcen von sighanCorporaDict + "dict /" zu bekommen ... also verwendet der Code hauptsächlich Dinge wie "data/dict/pku.non" und "data/dict/ctb.non" usw. ... – StanfordNLPHelp

+0

Aber warum? Was ist der Zweck des Verzeichnisses? – Andreas