Ich möchte die chinesischen Segenter mit neuen Daten und ich entwickelte ein Wörterbuch und eine serialisierte Treebank Textdatei.Zug chinesischen Segmenter mit benutzerdefinierten Quellen
Mein Problem ist, dass ich verstehe, oder finden Dokumentationen nicht über den Unterschied zwischen:
-sighanCorporaDict Daten
und
-trainFile train.txt
Kann mir jemand helfen mit diesem Problem. Meine chinesischen Datensätze sind buddhistische antike Texte, die es schwer machen, Ressourcen wie -sighanCorporaDict zu ersetzen?
Alle besten
Andreas
Leider erklärt diese Seite nicht die Parameter. Ich dachte der Parameter -serDictionary ist die Liste für die bekannten Wörter, die ich im Voraus vorbereiten muss. Was ist der Unterschied zwischen -serDictionary und -sighanCorporaDict, was im Grunde ein Verzeichnis ist? – Andreas
Ich war falsch. In der Segmenter-Verteilung befindet sich ein Datenverzeichnis. Sie können den Ordner hier herunterladen: https://nlp.stanford.edu/software/segmenter.shtml ... Innerhalb dieses heruntergeladenen Ordners befindet sich ein Verzeichnis namens data, und das ist es, was Sie für die Einstellung sighanCorporaDict verwenden möchten. Wenn Sie sich den Code ansehen, sehen Sie, dass er versucht, Ressourcen von sighanCorporaDict + "dict /" zu bekommen ... also verwendet der Code hauptsächlich Dinge wie "data/dict/pku.non" und "data/dict/ctb.non" usw. ... – StanfordNLPHelp
Aber warum? Was ist der Zweck des Verzeichnisses? – Andreas