ich diese hervorragende Anleitung gefunden zu haben: http://www.regular-expressions.info/unicode.html#category, die einige Hinweise auf gibt, wie mit der folgenden regex nicht Buchstaben entsprechen:Regex alle nicht Buchstaben ohne diakritische Zeichen (Python)
\P{L}
Aber diese regex wird prüfen nicht Buchstaben auch à
codiert als U + 0061 U + 0300 (wenn ich gut verstanden habe). Zum Beispiel regex Modul in Python den folgenden Ausschnitt mit:
all_letter_doc = regex.sub(r'\P{L}', ' ', doc)
purè
in pur
In der Führung verwandeln vorgesehen, wie alle Buchstaben mit folgendem übereinstimmen:
\p{L}\p{M}*+
und In der Praxis brauche ich die Negation, aber ich weiß nicht, wie ich es bekommen kann.
Try 'ur '\ P {L}'' und ersetzen mit 'u‘ ‚'. Im Fall, dass Sie alle Zeichen außer Buchstaben und diakritische Zeichen mit Leerzeichen ersetzen, müssen Sie '[^ \ p {L} \ p {M}] +' regex –
ausgezeichnet, nur in der Antwort erklären, warum es funktioniert, und ich werde akzeptieren. Vielen Dank! – Sanandrea
Verwenden Sie Python 2.x? –