in diesem Link http://nlp.stanford.edu/software/tokenizer.html ein Dokument verarbeitet wird und alle Abkürzung Punkt und Punkt werden unterschiedlich erkannt. Ich möchte die Logik oder den Prozess dahinter kennen lernen. Bitte erkläre.Wie unterscheidet stanford-nlp zwischen Abkürzungspunkt und Punkt?
Antwort
Sie können Ihr Dokument in Sätze aufteilen (mit Stanford oder einem anderen Tool, z. B. this); deutlich sind die Punkte am Ende der Sätze Punkte.
Es ist nicht klar für eine Maschine, die Punkte sind am Ende von Sätzen. Daher die Frage des OP. – diasks2
nicht wahr? Warum ist es nicht klar für die Maschine? – Daniel
Zum Beispiel: Hallo Welt. Mein Name ist Mr. Smith. Ich arbeite für die US-Regierung und lebe in den USA. Ich lebe in New York. " Es ist keineswegs eine einfache Aufgabe, zwischen einem Abkürzungspunkt und einem Punkt zu unterscheiden. Aus diesem Grund haben verschiedene Segmentierungswerkzeuge unterschiedliche Genauigkeiten und führen zu unterschiedlichen Ergebnissen. – diasks2
- 1. unterscheidet zwischen @Model und @Modell
- 2. wie man zwischen Kommentaren und Antworten unterscheidet
- 3. unterscheidet zwischen Object.toString und Object.prototype.toString
- 4. unterscheidet zwischen "GetDocumentElement" und "GetFirstChild"
- 5. Wie unterscheidet sich das const-Schlüsselwort zwischen iPhone und .NET?
- 6. Dashcode unterscheidet zwischen iPad und iPhone Browser
- 7. Java-Ausgabe unterscheidet zwischen NetBeans und Konsole
- 8. Texthöhe unterscheidet sich zwischen IB und Simulator
- 9. Unterscheidet sich identifierForVendor zwischen Entwicklungs- und Distributionsversionen?
- 10. Wie unterscheidet man zwischen geposteten Formularen?
- 11. Wie unterscheidet Python zwischen den verschiedenen Datentypen?
- 12. Wie unterscheidet man zwischen Sprachanruf und Videoanruf auf Android?
- 13. Wie unterscheidet man zwischen einer Sequenz und einer Zuordnung?
- 14. Wie unterscheidet man zwischen Abmeldung und Sitzung abgelaufen?
- 15. Wie unterscheidet ein Browser zwischen XHTML 1.0 und XHTML 5?
- 16. Wie unterscheidet man zwischen Klick- und Drag/Drop-Event?
- 17. UIKeyboardWillShowNotification, wie man zwischen externer und iOS-Tastatur unterscheidet
- 18. Wie unterscheidet sich die Variablendeklaration zwischen `Klasse` und` Konstruktor`?
- 19. Wie unterscheidet man zwischen VB5 und VB6 Projekten?
- 20. QCheckBox: Wie unterscheidet man zwischen benutzerinduzierten Statusänderungen und programmgesteuerten?
- 21. Wie man zwischen lokalen nicht festgeschriebenen Änderungen und Ursprung unterscheidet
- 22. awk Befehl: Wie unterscheidet man zwischen Leerzeichen und Tabulatoren?
- 23. Wie unterscheidet man zwischen HDF5-Datensätzen und Gruppen mit h5py?
- 24. Wie unterscheidet man zwischen ios UIWebview und ios mWeb?
- 25. Entfernung zwischen einem Punkt und mehreren Standorten
- 26. Unterschied zwischen Punkt und Leerzeichen in Scala
- 27. Android Bildschirmorientierung unterscheidet zwischen Geräten
- 28. SQLite Verschlüsselung unterscheidet zwischen Plattformen
- 29. Unterschied zwischen Ecke und Punkt in Vtk
- 30. Differenz zwischen numpy Punkt() und inneren()
Wenn Sie mehr über den Tokenizer erfahren möchten, müssen Sie sich diese Datei anschauen: edu/stanford/nlp/process/PTBLexer.flex. Sie können einen Link zu dieser Datei auf GitHub finden Sie hier: https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/process/PTBLexer.flex – StanfordNLPHelp