Web-Design

9. Einheit

Kodierung alphanumerischer Zeichen

B: Unicode

Der neuere Kodierungs-Standard Unicode verschlüsselt jedes Zeichen in zwei Bytes. Damit gibt es insgesamt 216, also mehr als 64'000 Kombinationen - genug, um durch eine einheitliche Kodierung nicht nur die Sonderzeichen aller lateinschriftlichen Sprachen darzustellen, sondern auch andere Schriftsysteme, wie kyrillisch, griechisch, hebräisch, arabisch, armenisch, die verschiedenen indischen Alphabete, die Zeichen der CJK-Sprachen (= chinesisch/japanisch/koreanisch) - und auch mathematische Sonderzeichen wie ≰ oder ≫.

Bei solchen Zeichen, die in ASCII und latin 1 kodiert sind, ergibt sich die Unicode-Darstellung einfach dadurch, dass das erste Byte gleich 0 und das zweite Byte gleich dem ASCII-Code bzw. Unicode gesetzt wird.

Beispiel
A       ASCII-CODE = 65 = 0100 0001 => Unicode = 0000 0000 0100 0001
ü       latin 1-CODE = 252 = 1111 1100 => Unicode = 0000 0000 1111 1100

Zeichen aus anderen Schriften bekommen dagegen eine Kodierung, die unabhängig von einem anderen Code ist, und bei der das erste Byte nicht gleich 0 ist.

Beispiel
Ą       Unicode = 260 = 0000 0001 0000 0100
Ĝ       Unicode = 284 = 0000 0001 0001 1100

Sie finden HIER eine Tabelle der Unicode-Nummern der latin 2- und latin 3-Buchstaben.

Moderne Browser können Unicode unmittelbar darstellen. Hat man in einem Text, der im Wesentlichen aus ASCII-kodierbaren Zeichen besteht, nur einzelne Unicode-Zeichen, so kann man diese Zeichen in der Form

&#nnnn;

darstellen. Dabei ist nnnn die dezimal kodierte Unicode-Nummer des Zeichens.
Manche Browser (aber nicht alle !) akzeptieren auch die Kodierung     &#xhhhh;  , wobei hhhh die Hexadezimalkodierung der Unicode-Nummer ist

Die folgende Tabelle zeigt einige Zeichen mit ihrer Unicode-Darstellung.

ASCII A 65 A A
ASCII Leerzeichen 32    
latin 1 (de) ü 252 ü ü
latin 2 (pl) Ą 260 Ą
latin 3 (eo) Ĝ 284 Ĝ
griechisch η 951 η
kyrillisch ж 1078 ж
hebräisch ש 1513 ש
arabisch س 1587 س
mathematisch 8816 ≰
CJK 19968 一
CJK 22320 地
CJK 40868 龤
CJK 40869 龥

Falls sich in einem Text derartig kodierte Zeichen befinden, sollte im HEAD der Seite die Direktive

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

eingefügt werden, da sonst einige Browser diese Kodierung nicht richtig interpretieren.

Hier noch einige externe Verweise zum Thema Unicode