2016-11-29 6 views
1

Ich möchte Ortsnamen in französischen Dokumenten zuordnen. Ich habe versucht, MARKFAST zu verwenden, aber ich bin mit dem Problem der Akzentempfindlichkeit konfrontiert. Angenommen, meine places.txt Datei enthält "Uzès". Meine RUTA Regel lautet wie folgt:Ist es möglich, Wortlisten auf akzentunempfindliche Weise zu kombinieren?

PACKAGE my.example; 
DECLARE PlaceName; 
WORDLIST PlaceNamesList = "places.txt"; 

Document{ -> MARKFAST(PlaceName, PlaceNamesList, true)}; 

Die Regel richtig Uzès im Text übereinstimmt, uzès oder sogar UZÈS aber nicht UZES noch Uzès, die Formen sind wir erwarten, zu finden in meinen Texten.

Was ist die richtige Lösung, um dies zu erreichen? Muss ich unbetonte Versionen aller Ortsnamen generieren? (was mein Problem nicht vollständig löst, erwarte ich auch Variation der Akzentuierung in Texten, wie in Uzés). Laufen andere RUTA-Ressourcen (Worttabellen, MTWL) bei Akzenten anders?

Antwort

0

Leider unterstützt UIMA Ruta (derzeit 2.5.0) keine accent-insensitive Anpassung.

Sie müssen entweder Ihre Wortlisten (programmatisch) erweitern oder einen anderen Annotator verwenden.

HAFTUNGSAUSSCHLUSS: Ich bin ein Entwickler von UIMA Ruta

+1

Dank. Ich fürchte, es gibt derzeit keine akzentunempfindlichen Wörterbuchannotatoren. Ich werde einen bauen und ihn als UimaFit-Komponente verpacken, um ihn als Ruta "Preprocessing" einbinden zu können. –

Verwandte Themen