Das Durchsuchen einer Datei, die in Hindi (Devanagri) (UTF-16) geschrieben wird, führte zu dem folgenden Problem.Suchen von Unicode-Text mit Regex
Die Datei enthält:
त्रास ततत जुग नींद ना हा बु
Beachten Sie, dass das erste Zeichen 'त्र' ist ein mehrere Codepunkt त + ् + र Jetzt, während Suche nach 'त' Ich erhalte 4 Treffer einschließlich des त des ersten Chars. Ich benutze Java.
Wie kann ich nach 'त' s suchen, die nicht Teil mehrerer Codepunktzeichen sind?
Jede Hilfe wird geschätzt. :)
Danke Sean :) Der negative Lookahead funktioniert gut. –