Chinesischen Zeichenkodierungen ordnen den chinesische Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.
Big5
Die Zeichenkodierung Big5 stammt aus
Taiwan und wird für
traditionelles Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
GB2312
Die Zeichenkodierung GB2312 wird für
vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
Die Zeichenkodierung
GB18030 ist eine Erweiterung von GB2312 auf den Unicodezeichenvorrat und wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.
Unicode
Unicode unterscheidet sich von den anderen chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen vereinfachtem und traditionellem Chinesisch gemacht wird, sondern durch die
Han-Vereinheitlichung alle chinesischen und
japanischen Schriftzeichen soweit wie möglich identifiziert werden.
Unicode Transformation Formats
Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefolgen ist in den
Unicode Transformation Formats definiert.
- UTF-8: In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und chinesische Zeichen in drei oder vier Bytes.
- UTF-16: In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und chinesische Zeichen in zwei oder vier Bytes.
- UTF-32: In UTF-32 werden ASCII-Zeichen und chinesische Zeichen in vier Bytes kodiert.
SIP
Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der
Supplementary Ideographic Plane alloziert, d.h. im Bereich U+20000-U+2FFFF.
Sonstige Unicode-Bereiche
Unicode hat auch Bereiche für
Bopomofo,
Radikale und Sonderzeichen, die für die
Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für
Pinyin gebraucht werden, sind über den Bereich für kombinierende diakritische Zeichen darstellbar.
Weblinks
Zeichenkodierung
Chinese character encoding | Codage des caractères chinois