In meinem C# -Code extrahiere ich Text aus einem PDF-Dokument. Wenn ich das mache, bekomme ich eine Zeichenfolge, die in UTF-8 oder Unicode codiert ist (ich bin mir nicht sicher, welche). Als ich Encoding.UTF8.GetBytes(src);
verwenden Sie es in eine Byte-Array zu konvertieren, merke ich, dass die Leerzeichen tatsächlich zwei Zeichen mit Byte-Werten von 194 und 160Wie UTF-Codierung für Leerzeichen zu beheben?
Zum Beispiel der Zeichenfolge „CLE Aktion“ sieht aus wie
[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
in einem Byte-Array, wo der Whitespace ist 194 und 160 ... Und deshalb src.IndexOf("CLE action");
gibt -1 zurück, wenn ich brauche, um 1 zurückzugeben.
Wie kann ich die Codierung der Zeichenfolge beheben?
Wie kann ich ein schadloses Feld durch ein normales ersetzen? – omega
@omega: src = src.Replace ('\ u00A0', ''); – RichieHindle