2017-06-26 6 views
0

Ich schreibe ein Programm, das den Text von MS Word .doc/.docx Datei analysiere, also muss ich Text in Wörter teilen.Kann verstecktes Symbol nicht entfernen

Ich bin verwenden String.Split-Methode für diese mit den meisten gängigen Zeichen als Separatoren. Alles ist gut, aber MS Word verwendet einige versteckte Symbole und ich kann kein Symbol finden.

Wenn ich auf "Versteckte Symbole anzeigen" in Word klicke, sieht es so aus hided symbol.

Ich muss wissen, über sie zumindest: Hex-Code in Unicode, Name usw.

Hier sind alle meine Separatoren

 char[] separators = { ' ', ',', '.', ':', '"', '\'', ';', '-', '‴', '‵',' ', '\b','\x00A0', 
      ')', '\\', '*', '%', '$', '@', '{', '}', '„', '“','…', '′', '″','’',' ', '\x2007', '\x200C', 
      '№', '(', '?', '!', '_', '\t', '\n', '\r', '\a', '<', '>','‶', '‷',' ','\0', '\x202F', 
      '/', '~', '#', '+', '—', ']', '[', '|', '«', '»', '&', '–', '¶', '‘', '\f', '\x2060'}; 

     string[] splittedWords = text.Split(separator); 
+0

Eine Regex-Teilung mit '\ b' (Wortgrenze) kann eine bessere Möglichkeit sein, dies zu tun. –

+1

'doc' ist ein Binärformat und' docx' ein gezipptes Paket von XML-Dateien, also auch eine Binärdatei. Es gibt keine zu spaltenden Wörter. Von welchem ​​symbolisierten Symbol sprichst du und wo hast du es gefunden? Wie hast du den Text gelesen? –

+0

Werfen Sie einen Blick auf diese: https://stackoverflow.com/questions/3114027/regex-expressions-for-all-non-alphanumeric-symbols durch einen regulären Ausdruck zu ersetzen – ccalboni

Antwort