Unicode isch en internationale Standard, wo langfristig für jedes sinnträgende Zeiche bzw. Tekschtelement vo allne bekannten Schriftkulture und Zeichesyschtem än digitale Code feschtgläit wird. Er will s'Problem vo dä verschiedene inkompatible Kodierige i dä underschiedliche Länder besytige. Herkömmlichi Computer-Zeichensyschtem umfassed än Zeichevorrat von entweder 128 (7 Bit) Zeiche wie dä sehr bekannti ASCII-Standard oder 256 (8 Bit) Zeiche, wie z.B. ISO Latin-1, wobii detä nach Abzug vo dä Stüürzeiche 96 Elemänt bi ASCII und 192–224 Elemänt bi dä 8-Bit ISO-Zeichesätz als Schrift- und Sonderzeiche darschtellbar sind. Diä Zeichekodierige erlaubed die gliichzytig Darschtellig von nur wenige Schprache im gliiche Tekscht, wenn mer sich nöd demit behilft, imene Tegscht verschiedeni Schrifte mit underschiedliche Zeichesätz z'verwende. Das hät bisher dä internationali Dateuustuusch starch behinderet.
In Unicode finded Zeiche vo dä wichtigschte Industriestandard-Zeichesätz wie d'ISO-Norme ä 1:1-Entsprechig (das bedütet, dass binere Konversion vom Industriestandard zu Unicode und zrugg s'gliiche Ergebnis usechunnt). Hüt erlediged die meischte Webbrowser die Darstellig vo dene Zeichesätz mit ere Unicode-kodierte Schrift i dä Regel perfekt und vom Benutzer unbemerkt.
ISO 10646 isch die vo ISO verwendeti praktisch bedeutungsgliichi Bezeichnig vom Unicode-Zeichesatz; er wird det als Universal Character Set (UCS) bezeichnet.
D'Codes vo Unicode-Zeiche werded hexadezimal mit voraageschtelltem „U+“ dargschtellt. Derbii chan „x“ als Platzhalter verwendet werde, wenn zämehängendi Bereich gmeint sind, wie z.B. „U+01Fx“ für dä Codebereich U+01F0–U+01FF.
Dä Coderuum vo Unicode hät urschprünglich 65'536 Zeiche umfasst (UCS-2, 16 Bit). Bald aber hät sich das als unzuereichend use gschtellt. I dä Version 2.0 isch dä Codebereich um wiiteri 16 gliich große Bereich, sogenannti Planes (Ebene) erwiiteret worde. So sind jetz maximal 1'114'112 (220+216) Zeiche bzw. Codepoints im Codebereich vo U+00000 bis U+10FFFF vorgsee (UCS-4, 32 Bit). Bis zur Unicode-Version 4.0, sind 96'382 Codes individuelli Zeichen zuegordnet. Das entspricht erst öppe 9% vom gsamte Coderuum.
Diä Codebereich (Blöck) wo d'Unicode-Ebene drin underglidert werded sind i dä Lischte dvo dä Unicode-Blöck vollschtändig uufgfüert. Zuesätzlich zu dä gültig kodierte Zeiche isch au sehr langfrischtig, z. T. noch recht ungenau Plaants uufgfüert.
D'Speicherig und d'Überträgig von Unicode erfolgt in underschiedliche Formate:
S'gemeinnützige Unicode Consortium isch 1991 gründet worde und isch für dä Industriestandard Unicode verantwortlich. Vo dä ISO (International Organization for Standardization) wird diä internationali Norm ISO 10646 usägee. Beidi Inschtituzione schaffed eng zäme. Sit 1993 sind Unicode und ISO 10646 bezüglich dä Zeichekodierig identisch. Während ISO 10646 lediglich diä eigentlichi Zeichekodierig feschtleit ghört zum Unicode es umfassends Regelwerch, wo u. a. für alli Zeiche wiiteri zur konkrete Aawendig wichtigi Eigenschafte (sogenannti Properties) eidüütig feschleit wie Sortierreihefolg, Läserichtig und Regle für s'Kombiniere vo Zeiche.
Zur Zyt isch Unicode strenggnoo no ä Undermengi von ISO 10646: Während ISO 10646 Zeichecodes mit bis zu 31 Bit zuelaat, sind bi Unicode maximal 21 Bit erlaubt.
Im Unicode werded „abschtrakti Zeiche“ (engl.: characters) kodiert, nöd Glyphen. S'Letschtere isch die grafisch Darschtellig vo abschtrakte Zeiche, wo extrem underschidlich uusfalle chönd, bim latiinische Alphabet byschpilswiis in Fraktur, Antiqua, im Irischen und in Handschriften, lueg au bi Glyphe. Für Glyphevariante, wo d'Normierig als sinnvoll und notwendig naagwise wird, sind vorsorglich 256 „Variation Selectors“ vorgseh, wo ggf. am eigentliche Code naagschtellt werde chönnd.
Anderersiits händ Schrifte, wo sowohl s'latiinische wie au s'griechische Alphabet enthalted, dopplet kodierti identischi Glyphe für die folgende mehrdütige Buchstabe: Α Β Ε Ζ Η Ι Κ Μ Ν Ο Ρ Τ Υ Χ. Vo vile Zeiche gits nöd nur dur d'Schriftart bedingti Variante sondern au innerhalb vonere Schriftart meh oder minder notwendigi sprach-, schrift- oder kontextabhängigi Glyphevariante und Ligature, wo denn zur Darschtellig sogenannti Smartfonttechnike wie OpenType nötig sind, aber kei Unicode-Kodierig bruuched. Grundsätzlich werded kei Ligature und suschtigi zämegsetzti Zeiche kodiert, au wenn d'Gründ für die Politik nöd vo jedermann verschtande werded. Lediglich zum Zweck vo der Kompatibilität mit elterä Zeichesätz sind Ligature und zämegsetzti Zeiche enthalte.
In Grenzfäll wird härt um d'Entscheidig grunge, öbs sich um Glyphevariante oder kodierigswürdigi Zeiche, d. h. underschiedlichi (Grapheme) handlet. Byschpilswiis sind nöd wenigi Fachlüüt der Meinig, s'phönizische Alphabet chönni mer als Glyphevariante vom hebräischen betrachte, wil dr gsamti Zeichevorrat vom Phönizischen det eidütigi Entsprechige hät, und au wil die beide Schprache sehr äng verwandt sind. Die Uuffassig, es handli sich um es separats Zeichesyschtem, i der Unicode-Terminologie „script“, hät sich letschtlich duregsetzt. Andersch verhaltets sich bi CJK (Chinesisch, Japanisch und Koreanisch): Da händ sich im 20. Jahrhundert d'Forme vo vile gliichbedütende Schriftzeiche usenandentwickelt. Trotzdem teiled sich die sprachschpezifische Glyphe die gliiche Codes im Unicode. I der Praxis werded da wohl überwiegend sprachschpezifischi Schriftarte verwendet, und die zeichned sich scho dur ussergwöhnlichi Dateigrössene uus. Die einheitlichi Kodierig vo de CJK-Schriftzeiche (Han Unification) isch eini vo de wichtigschte und umfangriichschte Vorarbete für d'Entwicklig von Unicode gsii. Bsunders in Japan isch si durchuus umschtritte. Zu Einzelheite (engl.) lueg bi de Weblinks.
Wo de Grundschtei für Unicode gleit worde isch, hät müesse berücksichtigt werde, dass bereits e Vielzahl vo underschiedliche Kodierige i verbreitetem Iisatz gsii sind. Unicode-basierti Syschtem händ sölle herkömmlich kodierti Date mit gringem Uufwand handhabe chönne. Für das sind für die undere 256 Zeiche die wiit verbreiteti ISO 8859-1-Kodierig (Latin1) biibhalte genau gliich wie d'Kodierigsarte vo verschiedene nationale Norme, z. B. TIS 620 für Thailändisch (fascht identisch mit ISO 8859-11) oder ISCII für indische Schrifte, wo i der urschprüngliche Reihefolg lediglich in höcheri Codebereich verschobe worde sind.
Jedes Zeiche vo massgebliche veraltete Kodierige sind in Standard übernoo worde, au wenns de normalerwiis aagleite Massstäb nöd grecht wird. Derbii handlets sich zumene grosse Teil um Zeiche, wo us zwei oder meh Zeiche zämegsetzt sind, wie Buchstabe mit diakritische Zeiche. Im übrigen verfüegt au hüt no en grosse Teil vo der Software nöt über d'Möglichkeit, Zeiche mit Diakritika ordentlich zäme zsetze. Die exakti Feschtlegig vo äquivalente Kodierige isch Teil vom zum Unicode ghörende umfangriiche Regelwerch. Au wenn die hexadekadische Ziffere A bis F formal d'Kriterie für e gsonderti Kodierig erfülled, hät das müesse underbliibe, wil i dr Praxis dene ihri Funktion stets vo de Buechschtabe A bis F übernoo wird.
Vilne Unicode-Zeiche isch kei Glyphe zuegordnet. Au sie gelted als „characters“. Nebed de Stüürzeiche wie Zeilevorschuub (U+000A), Tabulator (U+0009) usw. sind elei 19 Zeiche explizit als Leerzeiche definiert, sogar senigi ohni Breiti, wo u. a. als Worttrenner bruucht werded für Sprache wie Thai oder Tibetisch, wo ohni Wortzwüscheruum gschriebe werded. Für bidirektionale Text, z. B. Arabisch und Lateinisch sind siebe Formatierigszeiche nötig.
I einzelne Schprache gits Digraphe und Trigraphe, wo grundsätzlich als eigenschtändigi Buechschtabe behandelt, d. h. gsonderet sortiert werded. Im Ungarische byspilswiis betrifft das: cs, dz, dzs, gy, ly, ny, sz, ty und zs. Zum Uusnahme vo dem bi Bedarf z'kennzeichne, isch de „Combining Grapheme Joiner“ CGJ (U+034F) iigfüehrt worde. De Name bedütet eigentli s'Gegenteil, aber, au das ghört zum Standard, au d'Näme vo kodierte Zeiche werded niemals gänderet.
Träit en Buechschtabe mehreri Diakritika drüber oder drunder, werded die normalerwiis vertikal gschtaplet. Für Uusnahmefäll, wo zwei Diakritika nebedenand staa müend, gseht Unicode vor, dass en CGJ dezwüsche gschtellt wird. De Schriftentwickler dörf entscheide, die Erschiinigsform vo de Zeichefolge „Diakritikon1 CGJ Diakritikon2“ feschtzlege, wo dänn mittels Schrifttechnik wie OpenType zueggriffe werde chan.
D'Eigenschaft „default ignorable“ wo im Standard feschtgleit isch qualifiziert de CGJ, i Sonderfäll au anderi suscht unnötigi fiini Underschiid z'markiere. So chan d'Dateverarbeitig vo düütsche Bibliotheke die Underscheidig vo Umlaut und Trema (meischtens für fremdsprachigi Näme) erfordere. Da empfiehlt Unicode, dem Trema (U+0308) de CGJ voraazschtelle, um das als Umluut z'kennzeichne. Di urschprünglich vo DIN vorgschlageni nachträglichi gsondert Kodierig vo de Umluut-Punkt hett zunere chuum vertretbare Inkonsischtenz vo grosse Datemenge gfüehrt.
Im Vi Improved chan mer Unicode-Zeiche (Voruussetzig: Unicode-basierti Locale oder als Unicode, zum Byspil UTF-8, erchännti Datei) iigee, indem mer Strg+V,U und dänn di hexadezimali Zeichenummere truckt, also zum Byspil Strg+V,U,2,0,A,C fürs Euro-Zeiche. E alternatiivi Iingabemöglichkeit isch d'Benutzig vo de Digraph-Methode vom Vim.
In Emacs ab Version 21.4 cha mer Unicode-Zeiche iigee, indem mer META-x ucs-insert und dänn di hexadezimali Zeichenummere iigit.
Under Windows (ab Windows 2000) cha i vile Programm de Code hexadezimal iigee werde. Mit nachfolgendem Alt-x, innerhalb vo MS Word 2003 aber Alt-c, wird s'Zeiche erzügt. Die Taschtekombination cha under Windows XP au benutzt werde, zum de Code vo vor em Cursor stehende Zeiche aaz'zeige.
Öb das entsprechendi Unicode-Zeiche au tatsächlich am Bildschirm erschiint, hangt dervo ab, öb die verwendeti Schriftart e Glyphe für das gwünschti Zeiche (also e Grafik für di gewünschti Zeichenummere) enthaltet. Oft, z.B under Windows wird, falls di verwendeti Schrift es Zeiche nöd enthaltet, nach Möglichkeit es Zeiche us enere andere Schrift iigfüegt. I dere Typografie gilt so öppis als Fehler namens Zwiebelfisch. In Webbrowser hingäge isch das zwar hässlich aber überuus nützlich.
I dä letschte Jahre sind neui Versione jewiils im Früehjahr erschine, wobii i dä letschte Zyt jährlich um diä 1'000 Zeiche neu uufgnoo werded.
Standards:
Уникод | ইউনিকোড | Unicode | Unikod | Unicode | Unicode | Unicode | Unicode | Unicode | Unicode | Unikodo | Unicode | Unicode | Unicode | Unicode | Unicode | יוניקוד | यूनिकोड | Unicode | Unicode | Unicode | Unicode | Unicode | უნიკოდი | ಯುನಿಕೋಡ್ | 유니코드 | यूनिकोड | Unicode | Unicode | Unikods | युनिकोड | Unicode | Unicode | Unicode | Unicode | Unicode | Unicode | Юникод | Unikod | Unicode | Unicode | Unicode | Уникод | Unicode | யுனிகோடு | ยูนิโคด | Unicode | Юнікод | Unicode | Unicôde | Unicode | Thong-iōng-bé