Dies hängt stark von der Sprache (und der Regex-Engine) ab, die Sie verwenden.
In Perl, \w
passt alle Wortzeichen, unabhängig von Sprache oder Alphabet, und etwas wie würde (wahrscheinlich) Spanisch Wörter sowie Englisch Wörter oder russische Wörter entsprechen.
In Sprachen, die PCRE verwenden, \w
(und daher wahrscheinlich \b
) stimmen Sie nicht mit Unicode-Zeichen überein. Sie werden wahrscheinlich Ihr eigenes Set bauen müssen. Ich schlage etwas wie [\wáéíóúñ]
vor (entspricht allen Wortzeichen plus den akzentuierten Zeichen, die Sie wollen), und die PCRE-Bibliothek muss mit Unicode-Unterstützung vorgefertigt werden, bevor dies überhaupt funktioniert.
Wenn Sie etwas anderes verwenden, viel Glück. Einige Regex-Engines unterstützen nicht einmal Unicode.