2017-12-10 4 views
0

Ich dachte daran, einen Dienst zu entwickeln, der beliebigen Text mit verschiedenen NLP-basierten Konzepten wie POS-Tagging oder word2vec-Vektoren anreichern kann.Gibt es einen Standard für die Annotation von Text mit NLP-Konzepten?

Es sollte später auch auf Ontologien erweitert werden.

Ich frage mich, ob es einige Standards gibt, wie man verschiedene "Darstellungen" von Text in Form von "Tokens", "Lemmas" oder Ontologien "ausdrückt".

Ich googelte eine ganze Weile, um etwas zu finden, aber war nicht erfolgreich.

Vielleicht könnte mir jemand hier ein paar Tipps geben.

Antwort

0

ich die UIMA gefunden (http://uima.apache.org/) Standard, der willkürlich "Anmerkungen" des Textes zum Ausdruck bringen kann. ermöglicht also das auszudrücken: - Lemmata - Token - word2vec - Konzepte

0

DKPro Core bietet eine einheitliche UIMA basierte Typisierung, die einheitlich Sprache zum Ausdruck bringt. Sie stellen verschiedene Wrapper für verschiedene NLP-Frameworks bereit, um sie leicht austauschen zu können.

Werfen Sie einen Blick auf their typesystem. Beispielsweise stellt DKPro Core einen Typ für Lemma, Token, POS, benannte Entität usw. bereit.

Verwandte Themen