Ich sah, wie sich tokenization in implementiert Scikit-Learn und fand diese regex (source):Was macht "(? U)" in einer Regex?
token_pattern = r"(?u)\b\w\w+\b"
Die Regex ist ziemlich einfach, aber ich habe noch nie den (?u)
Teil gesehen. Kann mir jemand erklären, was dieser Teil macht?
Es ist äquivalent zu 're.U' Flagge – vaultah
Und sieht eher Python spezifisch. –
@sln: Können Sie bitte erläutern? – fwind