Was macht "(? U)" in einer Regex?

Ich sah, wie sich tokenization in implementiert Scikit-Learn und fand diese regex (source):Was macht "(? U)" in einer Regex?

token_pattern = r"(?u)\b\w\w+\b"

Die Regex ist ziemlich einfach, aber ich habe noch nie den (?u) Teil gesehen. Kann mir jemand erklären, was dieser Teil macht?

Quelle

2016-01-27 fwind

Es ist äquivalent zu 're.U' Flagge – vaultah

Und sieht eher Python spezifisch. –

@sln: Können Sie bitte erläutern? – fwind

Es schaltet die re.U (re.UNICODE) flag für diesen Ausdruck ein.

Vom module documentation:

(?iLmsux)

(Ein oder mehr Buchstaben aus der Menge 'i', 'L', 'm', 's', 'u', 'x'.) Die Gruppenspiele die leere Zeichenfolge; Die Buchstaben setzen die entsprechenden Flags: re.I (Groß-/Kleinschreibung ignorieren), re.L (Gebietsschema abhängig), re.M (mehrzeilig), re.S (Punkt entspricht allen), re.U (Unicode-abhängig) und re.X (ausführlich), für den gesamten regulären Ausdruck . (Die Flags werden in Modulinhalt beschrieben.) Dies ist nützlich, wenn Sie die Flags als Teil des regulären Ausdrucks einfügen möchten, statt ein Flag-Argument an die re.compile()-Funktion zu übergeben.

Quelle

2016-01-27 16:41:18

Das macht Sinn ... Danke für die schnelle Antwort! – fwind

Was macht "(? U)" in einer Regex?

Antwort

Verwandte Themen