article

UTF-16 (16 bitars unicode transformationsformat) är en längdvarierande teckenkodning som används för att representera unicodekodad text som sekvenser av dubbel-oktetter. UTF-16 är en utvidgning av UCS-2, gjord så att all UCS-2-data är också UTF-16-data. Men för UTF-16 har vissa kodvärden reserverats för att, i par, kunna referera till tecken vars kodpunkter är större än 65535 (U+FFFF), s.k. supplementära tecken.

UTF-16 är standardiserad Unicode och ISO/IEC 10646.

Som intern kodning i program är kodningen direkt baserad på 16-bitars tal. Kodningen refereras då till som en CEF, Character Encoding Format. Huruvida dessa tal är representerade som "big-endian" eller "little-endian", är då en helt intern sak på låg nivå. I programmen behandlar man dem som 16-bitars tal.

Som extern kodning (filer, dataöverföring av text) måste man dock, som det heter, serialisera 16-bitars-talen till en följd av 8-bitars-tal, då all datakommunikation idag är baserad på oktetter (8-bitars bytes). Kodningen refereras då till som en CES, Character Encoding Scheme. (Eventuell ytterligare serialisering, till t.ex. 4 bitar eller en bit i taget, plus extra bitar för felkorrigering, m.m. sker på lägre nivå.) Denna serialisering till oktetter kan vara antingen big-endian (mest signifikanta oktetten först), även kallad "network byte order", eller little-endian (minst signifikanta oktetten först).

Som extern kodning, och registrerade av IANA, är det därför två kodningar: UTF-16BE (big-endian) och UTF-16LE (little-endian). Big-endian är att föredra, då detta är den konventionella "network byte order", och formellt sett den oktettordning som ISO/IEC 10646 föreskriver. Unicode tillåter dock även formellt båda serialiseringarna. UTF-16 (utan BE eller LE) är även den registrerad som en charset av IANA. Det är då big-endian, men om "filen" (motsv.) börjar med en byte-ordningsindikation (BOM, byte order mark), så är det BOM som avgör vilken byte-serialisering som resten av filen har. BOM ingår då inte i text-innehållet i filen, och skall tas bort vid deserialisering.

UTF-16(BE|LE) kan användas för webbsidor och andra filer, både lokalt och publiket. För e-post kan UTF-16 dock av olika skäl inte användas, utan då får man använda UTF-8 istället (tillsammans med ESMTP/8BITMIME).

Standarder och konventioner | Teckenkodningar

UTF-16 | UTF-16 | UTF-16 | UTF-16/UCS-2 | UTF-16 | UTF-16 | UTF-16 | UTF-16 | UTF-16 | UTF-16 | UTF-16 | UTF-16 | UTF-16

 

This article is licensed under the GNU Free Documentation License. It uses material from the "UTF-16".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld