2017-02-14 6 views

Antwort

3

0xa0 sollte in UTF-8 ein gültiges, nicht brechendes Leerzeichen sein.

Nein, ist es nicht. Dies gilt sowohl in Latin1 als auch in Unicode (oder UTF-16 und UTF-32) Zeichensätzen.

In UTF-8-Codierung ist es codiert als C2 A0. Im Allgemeinen werden nur Zeichen, die kleiner als 0x80 sind, in UTF-8 einem einzelnen Byte zugeordnet.

+0

ah, danke. Also, wenn ich 8 Byte Text mit einem 0xa0 Byte habe, das ein Leerzeichen sein soll, dann ist es wahrscheinlich Latin1 Kodierung? – CoderBrien

+0

Es gibt mehrere Codierungen, die U + 00A0 bis 0xA0 abbilden. Latin-1 (das wiederum zwischen der ISO- und Windows-Codierung dieses Namens nicht eindeutig ist) ist eine wahrscheinliche Wette, aber nicht sicher. –

+0

@CoderBrien: Höchstwahrscheinlich. Oder irgendwelche anderen altmodischen Ein-Byte-Kodierungen. –