Ich möchte aufeinander folgende Tokens mit der gleichen benannten Entity Annotation (sagen wir, STANFORD UNIVERSITY, wo beide Token "Stanford" und "Universität" haben NE "ORGANISATION") zu einem einzigen Token, so dass ich gerade "STANFORD UNIVERSITY" mit NE "ORGANISATION". Gibt es eine Möglichkeit, das mit Tokens Regex zu tun? SoGibt es eine Möglichkeit, mehrere Token mit TokensRegex zu Token zu kombinieren?
, das ist wirklich eine zweiteilige Frage:
1) Wie würden Sie das Muster für eine ununterbrochene Folge von Token mit dem gleichen NER schreiben?
2) Wie würden Sie die Aktion schreiben, um erfasste Token zu einem zu kombinieren (im Grunde genommen das Gegenteil der Split-Funktion)?
Danke!