2017-05-22 3 views
2

Ich versuche einige Mehrwort-Tokens mit UIMA RUTA 2.6.0 zu vergleichen. Und es gibt einige Sätze, die teilweise einander gleich sind, e. G. In der gleichen Datei habe ich folgende Einträge: "includes the", "include the", "in this", "in the".UIMA RUTA Wortliste passendes Problem

Es ist der nächste Text in meiner Eingabedatei: "1." Agenten oder Mitarbeiter "umfasst die Direktoren ...". Offensichtlich gibt es eine "enthält die" Übereinstimmung, aber wenn andere als 3 Einträge in der Wortliste vorhanden sind, dann wird keine Übereinstimmung gefunden. Darüber hinaus hängt die Reihenfolge dieser Einträge in der Wortliste nicht vom Übereinstimmungserfolg ab: Sie schlägt immer fehl.

Und dieses Problem tritt nicht nur in einer einzigen Datei auf. Also, die Frage: Wie kann ich es beheben? Können einige Einstellungen von RUTA Annotator sein?

+0

Dies wird höchstwahrscheinlich durch die Whitespaces in der Wortliste verursacht. Versuche alle zu entfernen. Wenn es funktioniert, können Sie es mit dem Config Param dictRemoveWS lösen. –

+0

@peter, das ist ungewöhnliche Logik, aber es funktioniert. Vielen Dank! – user8047159

+0

Ja, es klingt nicht vernünftig, aber die Wortliste kann auch auf Muster von Leerzeichen angewendet werden, so dass sie im Allgemeinen nicht ignoriert werden können. Vielleicht stelle ich den Parameter in der Zukunft standardmäßig auf true. –

Antwort

1

Whitespaces in der Wortliste können zu verpassten Matches führen. Wenn die Whitespaces nicht wichtig sind, setzen Sie den Konfigurationsparameter 'dictRemoveWS' auf 'true'.

HAFTUNGSAUSSCHLUSS: Ich bin ein Entwickler von UIMA Ruta

+0

Wenn Spaces wichtig sind und wir es in csv setzen, bleibt das obige Problem gleich oder nicht? – Prabhav

Verwandte Themen