Linux vs. Windows: Wie rendert die Konsole Unicode-Zeichen?

Dies ist eine ziemlich niedrige (im Sinne von "näher am Metall") Frage.Linux vs. Windows: Wie rendert die Konsole Unicode-Zeichen?

Ich habe mich gefragt, ob jemand von mir auf Dokumentation, Erklärungen, etc. zeigen könnte, wie beim Empfang eines Unicode-Zeichens (oder eines beliebigen Zeichencodes, aber ich interessiere mich besonders für den Unicode-Standard) die Konsole in Windows , good ol 'cmd.exe (mit, sagen, Codepage 65001) und xterm in Linux begann mit, sagen wir LC_CTYPE=en_US.UTF-8 suchen Sie die entsprechende Glyphe (und wo).

Ich weiß, dass es in Windows schwieriger sein kann, aber ich kann nicht wirklich viele Informationen finden.

Vielen Dank.

Quelle

2009-08-07 Dervin Thunk

Soweit ich das beurteilen kann, ist cmd.exe an eine beliebige Codepage mit 256 Zeichen gebunden, die Sie als "Codepage für Nicht-Unicode-Programme" oder wie auch immer es bezeichnet wurde.

Wenn ich die obige Einstellung auf Japanisch setze, ersetzt cmd.exe plötzlich Backslashes mit Yen-Zeichen (wie jede andere Nicht-Unicode-Anwendung auf dem System) und interpretiert zum Beispiel ShiftJIS-Codes korrekt. Wenn ich es auf Holländisch setze, gebe ich ein akzentuiertes I (ich habe das vergessen), während eine andere Codepage einen halbgefüllten vertikalen Körper statt des gleichen Zeichens ergeben würde.

Nicht Unicode. Unicode würde mich alle drei gleichzeitig machen lassen.

Quelle

2009-08-07 22:34:22 Kawa

Es muss nicht 256-Zeichen: Shift-JIS ist eigentlich ein MBCS. Und ja, es hat diese Yen/Backslash Verwirrung in Windows, die sehr traurig ist und wahrscheinlich von DOS kommt ... – SamB

Um zu verdeutlichen, * all * die japanischen Schriftarten in Windows * immer * tun das. Es spielt keine Rolle, ob die App * Unicode ist! Glaub mir nicht? Suche nach U + 005C in MS Mincho in 'charmap', oder siehe http://blogs.msdn.com/b/michkap/archive/2007/03/28/1972239.aspx – SamB

Die Konsole verwendet einen TextWriter mit einer aus der Codepage erstellten Codierung. Das bedeutet, dass die geschriebenen Zeichen unter Verwendung des spezifischen Codierungsobjekts für die Codepage in Bytes codiert werden.

Quelle

2009-08-07 22:38:45 Guffa

Er spricht ganz konkret über cmd.exe, Das ist nicht, zuletzt überprüft, eine .Net-Anwendung, so dass es logisch TextWriter nicht verwendet. Es sei denn, es gibt einen anderen TextWriter, von dem ich nichts weiß. – Kawa

Ja, ich habe gerade überprüft. In Process Explorer wird es nicht genau in Gelb angezeigt. – Kawa

Nun, wenn wir es auf die Konsole selbst eingrenzen, unterstützt es überhaupt keine Unicode-Zeichen. Wenn die aktuelle Kodierung nicht UTF-8 ist und Sie versuchen, eine UTF-8-Datei anzuzeigen, wird sie stattdessen mit der aktuellen Kodierung dekodiert, was natürlich alles außer dem ASCII-Zeichenbereich in Unordnung bringt. Wenn die aktuelle Kodierung UTF-8 ist, unterstützt sie immer noch keine Unicode-Zeichen, sondern nur Zeichen, die als UTF-8 codiert sind. – Guffa

Die Konsole unterstützt kein Unicode. :)

Quelle

2009-08-08 12:49:47 CoDeR

Ja, das habe ich schon angedeutet. – Kawa

Das trifft auf aktuelle Linux-Systeme nicht zu. –

Für eine Definition der letzten, die mindestens bis 1996 für die Konsole zurückgeht. Wenn Sie Terminalemulatoren meinen wollten, wurde 1999 die Unterstützung für UTF-8 zu XTerm hinzugefügt und war bereits in einigen anderen Terminalemulatoren vorhanden. – AProgrammer

Linux vs. Windows: Wie rendert die Konsole Unicode-Zeichen?

Antwort

Verwandte Themen