Wikipedia sagt mir, dass die Anzahl der Bits von der UTF-32-Codierung verwendet 32 Bit ist, warum gibt mir das eine 64-Bit-Länge?Länge eines einzelnen Zeichens codiert in UTF-32
>>> Bits(bytes = 'a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> len(Bits(bytes = 'a'.encode('utf-32')).bin)
64
UTF-32 sollte ein 4-Byte-Fixlänge Zeichensatz sein, die nach meinem Verständnis ist, dass jedes Zeichen fixiert hat Länge darstellt wäre es innerhalb von 32 Bits, aber die Ausgabe des obigen Codes ist 64. Wie ist das?
So, Die BOM ist die gleiche Länge wie die Anzahl von Bits in einem beliebigen Zeichen im Zeichensatz? – mathmaniage
@BeshalJaenal die BOM ist nur ein weiterer Codepoint. In UTF-32 codiert es wie jeder andere Codepunkt auch zu 32 Bits. –