Ich habe eine Reihe von arabischen, englischen, russischen Dateien, die in utf-8 codiert sind. Der Versuch, diese Dateien zu verarbeiten, um einen Perl-Skript, ich diesen Fehler:So entfernen Sie nicht UTF-8 Zeichen aus der Textdatei
Malformed UTF-8 character (fatal)
manuell den Inhalt dieser Dateien überprüft, fand ich in ihnen ein paar seltsamen Zeichen. Jetzt suche ich nach einer Möglichkeit, diese Zeichen automatisch aus den Dateien zu entfernen.
Gibt es trotzdem, es zu tun?
Vielleicht ist es das gleiche wie folgt aus: http://stackoverflow.com/questions/7656283/malformed-utf-8-character-fatal-error-while-parsing-xml-using-xmllibxml –
entnehmen Sie bitte diesen Link: http://unix.stackexchange.com/questions/6516/filtering-invalid-utf8 – askmish
Was sind keine UTF-8-Zeichen? Alle Zeichen in einer wohlgeformten UTF-8-Zeichenfolge sind UTF-8-Zeichen (eigentlich Unicode-Zeichen)! Einige von ihnen sind UTF-8, die in mehreren aufeinanderfolgenden Bytes codiert sind. –