2016-06-01 8 views
-1

in diesem Link http://nlp.stanford.edu/software/tokenizer.html ein Dokument verarbeitet wird und alle Abkürzung Punkt und Punkt werden unterschiedlich erkannt. Ich möchte die Logik oder den Prozess dahinter kennen lernen. Bitte erkläre.Wie unterscheidet stanford-nlp zwischen Abkürzungspunkt und Punkt?

+0

Wenn Sie mehr über den Tokenizer erfahren möchten, müssen Sie sich diese Datei anschauen: edu/stanford/nlp/process/PTBLexer.flex. Sie können einen Link zu dieser Datei auf GitHub finden Sie hier: https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/process/PTBLexer.flex – StanfordNLPHelp

Antwort

-2

Sie können Ihr Dokument in Sätze aufteilen (mit Stanford oder einem anderen Tool, z. B. this); deutlich sind die Punkte am Ende der Sätze Punkte.

+0

Es ist nicht klar für eine Maschine, die Punkte sind am Ende von Sätzen. Daher die Frage des OP. – diasks2

+0

nicht wahr? Warum ist es nicht klar für die Maschine? – Daniel

+0

Zum Beispiel: Hallo Welt. Mein Name ist Mr. Smith. Ich arbeite für die US-Regierung und lebe in den USA. Ich lebe in New York. " Es ist keineswegs eine einfache Aufgabe, zwischen einem Abkürzungspunkt und einem Punkt zu unterscheiden. Aus diesem Grund haben verschiedene Segmentierungswerkzeuge unterschiedliche Genauigkeiten und führen zu unterschiedlichen Ergebnissen. – diasks2

Verwandte Themen