Ein Zeichensatz ist eine Teilmenge aller geschriebenen Zeichen. Eine Zeichencodierung gibt an, wie diese Zeichen numerischen Werten zugeordnet werden. Einige Zeichenkodierungen, wie UTF-8 und UTF-16, können jedes Zeichen im universellen Zeichensatz kodieren. Andere wie US-ASCII oder ISO-8859-1 können nur eine kleine Teilmenge codieren, da sie 7 bzw. 8 Bits pro Zeichen verwenden. Da viele Standards sowohl einen Zeichensatz als auch eine Zeichencodierung spezifizieren, wird der Begriff "Zeichensatz" oft frei für "Zeichencodierung" substituiert.
Eine Sortierung umfasst Regeln, die angeben, wie Zeichen zum Sortieren verglichen werden können. Sortierregeln können länderspezifisch sein: Die richtige Reihenfolge von zwei Zeichen ist von Sprache zu Sprache unterschiedlich.
Die Auswahl eines Zeichensatzes und einer Sortierung hängt davon ab, ob Ihre Anwendung internationalisiert ist oder nicht. Falls nicht, auf welches Gebietsschema zielen Sie?
Um auszuwählen, welchen Zeichensatz Sie unterstützen möchten, müssen Sie Ihre Anwendung berücksichtigen. Wenn Sie vom Benutzer bereitgestellte Eingaben speichern, kann es schwierig sein, alle Ländereinstellungen vorauszusehen, in denen Ihre Software eventuell verwendet wird. Um sie alle zu unterstützen, ist es am besten, das UCS (Unicode) von Anfang an zu unterstützen. Dies verursacht jedoch Kosten. Viele westeuropäische Zeichen benötigen jetzt zwei Byte Speicherplatz pro Zeichen anstelle von einem.
Die Auswahl der richtigen Sortierung kann die Leistung verbessern, wenn Ihre Datenbank die Sortierung verwendet, um einen Index zu erstellen, und später diesen Index verwendet, um sortierte Ergebnisse bereitzustellen. Da Sortierregeln jedoch häufig länderspezifisch sind, ist dieser Index wertlos, wenn Sie Ergebnisse nach den Regeln eines anderen Gebietsschemas sortieren müssen.
Wichtig zu beachten, dass es für einen einzelnen Zeichensatz viele verschiedene Sortierungen geben kann. Der eine, der "richtig" ist, hängt von der Semantik des Textes ab, der normalerweise durch die Sprache bestimmt wird, in der er geschrieben ist. – Phil