ich Teil einer Zeichenkette (in fett) entfernen möchten unten, wird dies in der Zeichenfolge gespeichert oldstringregex python mit Unicode (japanische) Zeichen Ausgabe
[DMSM-8433] 加 護 亜 依 Kago Ai - 加 護 亜 依 vs. freitag
im mit dem folgenden regulären Ausdruck in python
p=re.compile(ur"([\W]+) (?=[A-Za-z ]+–)", re.UNICODE)
newString=p.sub("", oldString)
wenn i Ausgang des Neuerstring keine Ding hat
'oldString' sollte ebenfalls in Unicode konvertiert werden. Ist es? Wie erhalten Sie es? Probieren Sie 'oldString = Unicode (oldString," utf-8 ")' bevor Sie 'p' deklarieren. –
Was ist Ihre erwartete Ausgabe? – Kasramvd
@Stribizhev Ich spezifiziere '# - * - Codierung: utf-8 - * -' an der Spitze der Datei, von dem, was ich gelesen habe, sollte es in Unicode konvertieren, ich bekomme es von Scraping einer HTML-Seite @ Kasramvd erwartete Ausgabe sollte sein "[DMSM-8433] Kago Ai - 加 護 亜 依 vs. FREITAG" –