Liest Joel Spolsky 'Das absolute Minimum' über die Zeichencodierung. Es ist mein Verständnis, dass ASCII ein Code-Point + Encoding-Schema ist, und in modernen Zeiten verwenden wir Unicode als das Codepoint-Schema und UTF-8 als Encoding-Schema. Ist das richtig?ASCII vs Unicode + UTF-8
Antwort
Ja, außer dass UTF-8 ein Kodierungsschema ist. Andere Codierungsschemata umfassen UTF-16 (mit zwei verschiedenen Byte-Ordnungen) und UTF-32. (Für einige Verwirrung, ein UTF-16-Schema wird "Unicode" in Microsoft-Software genannt.)
Und, um genau zu sein, der American National Standard, definiert ASCII definiert eine Sammlung von Zeichen und ihre Codierung als 7-Bit-Mengen , ohne eine bestimmte Transfercodierung in Bytes anzugeben. In der Vergangenheit wurde es auf verschiedene Arten verwendet, z. so dass fünf ASCII-Zeichen in eine 36-Bit-Speichereinheit gepackt wurden oder dass 8-Bit-Bytes die zusätzlichen Bytes für Prüfzwecke (Paritätsbit) oder für die Übertragungssteuerung verwendeten. Aber heutzutage wird ASCII verwendet, so dass ein ASCII-Zeichen als ein 8-Bit-Byte codiert wird, wobei das erste Bit auf Null gesetzt wird. Dies ist das de facto Standardcodierungsschema und ist in einer großen Anzahl von Spezifikationen impliziert, aber streng genommen nicht Teil des ASCII-Standards.
In modernen Zeiten ist ASCII jetzt eine Untermenge von UTF-8, nicht ein eigenes Schema. UTF-8 ist abwärtskompatibel zu ASCII.
Ok. Vor UTF-8 war ASCII ein kombiniertes Codepunkt + Codiersystem? Ich frage nur, weil ich gerne erfahren würde, wie sich das ASCII-System entwickelt hat. –
ASCII definiert Codepunkt-Werte (sie wurden nicht Codepoints genannt, bis Unicode kam) 0-127, aber es definiert ihre Codierungen nicht. Alle Sprachcodierungen verwenden die gleichen Werte wie ASCII für ihre ersten 128 Zeichen. UTF-8, ISO-Kodierungen, lateinische Kodierungen usw. sind alle 8-Bit-Kodierungen, die ASCII-Werte unterstützen. UTF-16 und UTF-32 sind 16/32-Bit-Kodierungen, die auch ASCII-Werte unterstützen. Codepunktwerte und ihre codierten Codeunit-Werte innerhalb einer gegebenen Codierung sind zwei getrennte Dinge. –
Sortieren von. ASCII definiert technisch nur die ersten 7 Bits. Aber die meisten ASCII + Codepage-Schemata haben zusätzliche 128 Zeichen, wie Windows (1252) oder Mac OS Roman (10000). Diese werden alle als "ASCII" bezeichnet, aber UTF-8 passt nicht zu ihnen, wenn Sie über 127 gehen. – PRMan
- 1. konvertieren Unicode Ucs4 in UTF8
- 2. Konvertierung von UTF8 nach ASCII
- 3. Javascript Unicode zu ASCII
- 4. C# ASCII oder Unicode
- 5. NSString - Unicode in ASCII-Äquivalent
- 6. So konvertieren Sie UTF8 in Unicode
- 7. Unicode/ASCII-Pfeile in 8 Richtungen?
- 8. Konvertieren Ansible-Variable von Unicode nach ASCII
- 9. So ersetzen Sie Unicode-Zeichen durch ASCII
- 10. php preg_replace: Unicode-Modifikator für ASCII-Strings
- 11. boost.regex: zwischen ascii und unicode wechseln
- 12. Ähnliche ASCII-Zeichen in Unicode finden
- 13. Konvertieren von ASCII in Unicode-Codierung Problem
- 14. Unicode zu UTF8 für CSV-Dateien - Python über xlrd
- 15. string.decode() vs. unicode (string)
- 16. UTF8, ISO-8859-x oder 7-Bit-ASCII und Entitäten
- 17. mysql2 gem 0.3.15 gibt ASCII-8BIT mit Codierung auf "utf8"
- 18. Python, XML und MySQL - ascii v UTF8-Codierung gibt
- 19. UTF-8 vs UTF8 in XML-Dateien
- 20. Wie konvertiert man von utf8 zu Unicode in ActionScript?
- 21. UTF8 Dateinamen in PHP und verschiedene Unicode-Kodierungen
- 22. Ruby: Fuzzing durch alle Unicode-Zeichen (UTF8/Codierung/String-Manipulation)
- 23. Warum erkennt die utf8.Validstring-Funktion ungültige Unicode-Zeichen nicht?
- 24. Python-3x Unicode Print vs schreiben
- 25. entfernen 4-Byte-Zeichen UTF8
- 26. Unicode-String entspricht von enthalten
- 27. Wird eine Unicode-Zeichenfolge, die nur ASCII-Zeichen enthält, immer gleich der ASCII-Zeichenfolge sein?
- 28. Konvertieren von ASCII-Zeichen zurück in Unicode in Coldfusion
- 29. Regulärer Ausdruck für die Übereinstimmung mit ASCII- und Unicode-Zeichen
- 30. Convert HTML-escaped Strings in einfachen Unicode/ASCII
Also ASCII das gleiche wie UTF-7? – aaiezza