2017-01-26 5 views
1

Bisher, als ich versuchte, Emoji zu verwenden und den POS-Tagger zu verwenden, erschien es als unbekannte Symbole, kleine Kästchen. Gibt es eine Möglichkeit, den POS-Tagger mit Emoji arbeiten zu lassen? Emoji wie in den Unicode-Versionen.Stanford CoreNLP und Emoji?

Antwort

2

Vorausgesetzt, dass die Zeichencodierung im gesamten Code, System und dem Stanford CoreNLP-Code korrekt ist, sollte Emoji korrekt dargestellt werden. Allerdings haben Sie zwei grundlegendere Probleme:

Erstens, Emoji sind ein Zeichen lang und sie sind unwahrscheinlich, als etwas anderes als ein unbestimmter Artikel markiert werden. 'a' auf Englisch. Ein intelligenter Tokenizer könnte einen besseren Sinn für Emoji haben, aber ich bezweifle es.

Zweitens, und noch wichtiger, POS-Tagger kommentieren parts of speech. Emoji sind kein Teil der Rede. Zumindest sind sie eine unabhängige, neue Klasse von Tokens, aber sicher nicht grammatikalisch.

All das sagte ... Sie kennen ihre Zeichencodes ... sie sind bereits markiert.

+0

Wenn sie als Kästchen zeigt, stehen die Chancen sind die Codierung ist nicht das Gleiche. Nur eine Vermutung. – Qix

+1

Und irgendwo zwischen dem Original und dem Ausgangsterminal könnte der Schuldige sein. – gerowam

+0

Sehr wahr./length – Qix

2

Ab Version 3.8.0 unterstützt Stanford CoreNLP Emojis.

Release notes.

+0

Was bedeutet es durch Unterstützung Emojis? Ich habe dieses Problem: https://stackoverflow.com/questions/46905716/stanford-chinese-segment-dont-handle-emojis-well – user697911

Verwandte Themen