Ich verwendete this post, um eine Regex zu erstellen, die Emojis in einer Textzeichenfolge finden und einfach einige Leerzeichen auf jeder Seite anbringen würde. mein regex Code:Surround-Emoji mit Leerzeichen
try:
# Wide UCS-4 build
oRes = re.compile(u'['
u'\U0001F300-\U0001F64F'
u'\U0001F680-\U0001F6FF'
u'\u2600-\u26FF\u2700-\u27BF]+',
re.UNICODE)
except re.error:
# Narrow UCS-2 build
oRes = re.compile(u'('
u'\ud83c[\udf00-\udfff]|'
u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
u'[\u2600-\u26FF\u2700-\u27BF])+',
re.UNICODE)
s2 = oRE.sub(r' \1 ', s1)
Aber ich bin immer ein paar wirklich seltsames Verhalten, wo Emojis entfernt werden, wie im Beispiel unten. Jeder Rat würde geschätzt werden. Ich benutze Python auf einem MacBook. Vielen Dank.
INPUT
هيلاري كلينتون "متنحة" وتشير إلى عملية غش في ولاية بانسيلفانيا العتيقة قائلة: "عند فرز الاصوات ..قطعوا الكهربا ✋" # ابو_الياس
OUTPUT
هيلاري "لينتون "متنحة" وتشير إلى عملية غشغشي ولاية بانسيلفانيا العتيقة قائلة: "عند زرز الاصصات ..ططعوا الكهربا ✋ "# ابو_الياس
Welche Version von Python verwenden Sie? – timotree
Danke für Ihre Antwort, ich benutze 2.7. –
Gern geschehen. Ich weiß nicht viel über Unicode in Python obwohl so jemand anders Ihre Frage beantworten muss. – timotree