Ich versuche einige Mehrwort-Tokens mit UIMA RUTA 2.6.0 zu vergleichen. Und es gibt einige Sätze, die teilweise einander gleich sind, e. G. In der gleichen Datei habe ich folgende Einträge: "includes the", "include the", "in this", "in the".UIMA RUTA Wortliste passendes Problem
Es ist der nächste Text in meiner Eingabedatei: "1." Agenten oder Mitarbeiter "umfasst die Direktoren ...". Offensichtlich gibt es eine "enthält die" Übereinstimmung, aber wenn andere als 3 Einträge in der Wortliste vorhanden sind, dann wird keine Übereinstimmung gefunden. Darüber hinaus hängt die Reihenfolge dieser Einträge in der Wortliste nicht vom Übereinstimmungserfolg ab: Sie schlägt immer fehl.
Und dieses Problem tritt nicht nur in einer einzigen Datei auf. Also, die Frage: Wie kann ich es beheben? Können einige Einstellungen von RUTA Annotator sein?
Dies wird höchstwahrscheinlich durch die Whitespaces in der Wortliste verursacht. Versuche alle zu entfernen. Wenn es funktioniert, können Sie es mit dem Config Param dictRemoveWS lösen. –
@peter, das ist ungewöhnliche Logik, aber es funktioniert. Vielen Dank! – user8047159
Ja, es klingt nicht vernünftig, aber die Wortliste kann auch auf Muster von Leerzeichen angewendet werden, so dass sie im Allgemeinen nicht ignoriert werden können. Vielleicht stelle ich den Parameter in der Zukunft standardmäßig auf true. –