Als Zeichenkodierung wird eine eindeutige Transformation von Zeichen wie Buchstaben oder sonstigen Symbolen in Zahlen oder Signale bezeichnet.
Zeichenkodierung dient dazu, Informationen über ein bestimmtes Medium übermitteln, zu verarbeiten oder speichern zu können. Von der Zeichenkodierung ist die Verschlüsselung zu unterscheiden, deren Zweck es ist, Informationen für Unbefugte unkenntlich zu machen.
Beispiele für frühe Formen der Kodierung sind Rauchzeichen zur Nachrichtenübermittlung über weite Strecken bei den Indianern sowie der Morse-Code. Die von Samuel Morse in 1833 entwickelte Kodierung wandelt Zeichen in kurze und lange Signale um. Die Zeichenfolge einer Nachricht werden voneinander durch Pausen getrennt. Bei dieser Form der Kodierung ist es prinzipiell unerheblich, welche Art von Medium zur Übertragung von Nachrichten genutzt wird; sowohl Ton-, Funk- als auch Lichtsignale sind möglich. Durch die Telegraphie fand das Morse-Alphabet weite Verbreitung und wurde erst mit dem Aufkommen der Telefontechnik weitgehend abgelöst. Dennoch legt der Morse-Code in Bezug auf die heutige Zeichenkodierung einen Grundstein, mit dem die moderne Informationsverarbeitung erst möglich wurde.
Die Zeichenkodierung ist eine Grundvoraussetzung für die Verarbeitung von Information mit elektronischen Medien. Da Computer lediglich in der Lage sind, Operationen auf Zahlen auszuüben, müssen alle Zeichen numerisch kodiert werden.
Der Umfang der benötigten Kodierung hängt von der erforderlichen Zeichenmenge einer verwendeten Sprache ab. Bei einem Alphabet von 26 Kleinbuchstaben kommen ebenso viele Großbuchstaben hinzu; ebenfalls müssen die Ziffern 0-9, Leerzeichen, Satzzeichen (Komma, Semikolon, Punkt) sowie einige weitere Spezialzeichen kodiert werden. Hinzukommen noch weitere Steuerungszeichen, die nicht sichtbar sind.
Formen der Zeichenkodierung
Bekannte Kodierungen sind der American Standard Code for Information Exchange (ASCII) und der Unicode, letzter auch und gerade in Form des UTF-8. Vor allem auf IBM-Großrechnern fand und findet sich der Extended Binary Coded Decimals Interchange Code (EBCDIC).
Der ASCII wurde ursprünglich als Standard mit einer 7-Bit-Zeichenkodierung definiert und deckte alle Zeichen der englischen Sprache ab. Für Sonderzeichen in anderen Sprachen wurden später spezifische Erweiterungen vorgenommen und die Kodierung auf 8-Bit erweitert. Allerdings haben sich dadurch Kompatibilitätsprobleme ergeben, da jeder Sprachraum seine eigene Kodierung hatte. Zur Lösung dieses Problems einer weltweit einheitlichen Kodierung entstand ein neuer Standard, der Zeichen aller Sprach- und Kulturräume berücksichtigt und zu einem universellen Code zusammenfasst, der Unicode.
Der Unicode ist als Ergebnis der Arbeit vom Unicode-Konsortium entstanden, das seit seiner Gründung ständig daran arbeitet, neue Versionen und Erweiterungen zu verabschieden. Zur Standardisierung eines Zeichensatzes bei der weltweiten Datenübertragung wurde der Unicode von der ISO als Universal Character Code (UCS) normiert.
In Ergänzung zu dieser sehr umfangreichen Kodierung hat sich seit den 90er Jahren eine kompaktere Darstellung mit dem Namen UTF-8 etabliert. UTF-8 steht für die Abkürzung UCS Transformation Format. Der Name bringt bereits zum Ausdruck, dass es sich hierbei um eine andere Kodierungsform des UCS bzw. Unicode handelt. Jedem Unicode wird eine variable Bytelänge zugeordnet. So werden die 7-Bit ASCII-Codes durch ein Byte kodiert, alle weiteren Codes haben eine Länge zwischen 2 und 6 Byte. Die Idee dabei ist, häufig verwendete Zeichen mit einem Byte und seltenere Codes durch mehrere Bytes zu kodieren, um die zu übermittelnde Datenmenge zu verringern. Besonders im Internet ist der UTF-8 weit verbreitet.
Literatur
W. F. Bohn, T. Flik: Zeichen und Zahlendarstellung. In: P. Rechenberg, G. Romberger (eds.); Informatik-Handbuch. 2., erw. Auflage. München; Wien: Hanser, 1999.
H. P. Gumm. M. Sommer: Einführung in die Informatik. 8. Auflage. München: Oldenbourg Wissenschaftsverlag, 2009
Dieser Eintrag ist unter Mitarbeit von Atilla Yalcin verfasst worden.