Der neuere Kodierungs-Standard Unicode verschlüsselt jedes Zeichen in zwei Bytes. Damit gibt es insgesamt 216, also mehr als 64'000 Kombinationen - genug, um durch eine einheitliche Kodierung nicht nur die Sonderzeichen aller lateinschriftlichen Sprachen darzustellen, sondern auch andere Schriftsysteme, wie kyrillisch, griechisch, hebräisch, arabisch, armenisch, die verschiedenen indischen Alphabete, die Zeichen der CJK-Sprachen (= chinesisch/japanisch/koreanisch) - und auch mathematische Sonderzeichen wie ≰ oder ≫.
Bei solchen Zeichen, die in ASCII und latin 1 kodiert sind, ergibt sich die Unicode-Darstellung einfach dadurch, dass das erste Byte gleich 0 und das zweite Byte gleich dem ASCII-Code bzw. Unicode gesetzt wird.
Beispiel
| A | ASCII-CODE | = | 65 | = | 0100 0001 | => | Unicode | = | 0000 0000 0100 0001 |
| ü | latin 1-CODE | = | 252 | = | 1111 1100 | => | Unicode | = | 0000 0000 1111 1100 |
Zeichen aus anderen Schriften bekommen dagegen eine Kodierung, die unabhängig von einem anderen Code ist, und bei der das erste Byte nicht gleich 0 ist.
Beispiel
| Ą | Unicode | = | 260 | = | 0000 0001 0000 0100 |
| Ĝ | Unicode | = | 284 | = | 0000 0001 0001 1100 |
Sie finden HIER eine Tabelle der Unicode-Nummern der latin 2- und latin 3-Buchstaben.
Moderne Browser können Unicode unmittelbar darstellen. Hat man in einem Text, der im Wesentlichen aus ASCII-kodierbaren Zeichen besteht, nur einzelne Unicode-Zeichen, so kann man diese Zeichen in der Form
darstellen. Dabei ist nnnn die dezimal kodierte Unicode-Nummer des
Zeichens.
Manche Browser (aber nicht alle !) akzeptieren auch die Kodierung
&#xhhhh; , wobei hhhh
die Hexadezimalkodierung der Unicode-Nummer ist
Die folgende Tabelle zeigt einige Zeichen mit ihrer Unicode-Darstellung.
| ASCII | A | 65 | A | A |
| ASCII | Leerzeichen | 32 |   | |
| latin 1 (de) | ü | 252 | ü | ü |
| latin 2 (pl) | Ą | 260 | Ą | |
| latin 3 (eo) | Ĝ | 284 | Ĝ | |
| griechisch | η | 951 | η | |
| kyrillisch | ж | 1078 | ж | |
| hebräisch | ש | 1513 | ש | |
| arabisch | س | 1587 | س | |
| mathematisch | ≰ | 8816 | ≰ | |
| CJK | 一 | 19968 | 一 | |
| CJK | 地 | 22320 | 地 | |
| CJK | 龤 | 40868 | 龤 | |
| CJK | 龥 | 40869 | 龥 |
Falls sich in einem Text derartig kodierte Zeichen befinden, sollte im HEAD der Seite die Direktive
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
eingefügt werden, da sonst einige Browser diese Kodierung nicht richtig interpretieren.
Hier noch einige externe Verweise zum Thema Unicode