article

文字コード(もじこーど)はコンピュータ上で文字を利用するために各文字に割り当てられる数値もしくは、数値と文字の対応関係(文字コード体系)。

概説


コンピュータでは、すべての文章は文字コードの並びとして扱う。コンピュータの発展が早かった英語圏やその他のアルファベットを使用する言語(主に西洋)、日本語中国語朝鮮語などは言語固有の文字コードが制定され、利用可能になっているが、その他の大部分の言語ではコンピュータ上で文字を正常に表現することができない。

文字コードの歴史は電気通信の歴史とほぼ等しい。古くはテレックスで用いられた国際電信アルファベット第2、英語圏で多く利用されてきた ASCIIIBMによって開発されたEBCDICがあった。しかしコンピュータシステムが多くの言語圏で利用されるようになるにつれて文字コードの種類も増大し、現在では 100種類以上の代表的な文字コードが存在する。

多様な文字コードの存在は文字コードの互換性問題をひきおこす。文字コードの互換性問題とは、ある文字コードで記録されたデータを別の文字コードに変換しようとするとき、一方で定義されている文字がもう一方では定義されていない (あるいは用途によって 2種類の文字に分けられている) という問題である。日本語では、これは特殊な人名用漢字などが入ったデータベースを扱うときなどに問題となる。また文字コードの変換にかかるコストはばかにならないことが多い。

近年、これらの互換性問題を解決するためにすべての言語の文字コードを統一する試みであるUnicodeが作られ、オペレーティングシステムJava言語などの内部コードとして広く利用されている。マイクロソフトアップルコンピュータなど世界的に事業を展開している企業は、今後Unicodeのみ拡張に対応していく方針であり、現に最近のOSは表面上はUnicode以外の文字コードを使っていても、内部処理上はUnicodeに変換して処理しているものが多い。

外字


大抵の文字コードには外字というユーザが独自にフォントを登録できる領域がある。UNICODEにおいては、6400文字の『PUA(Private Use Area)=私的領域』があり、シフトJIS(CP932)にも1880文字の外字領域がある。ユーザが独自にフォントを登録した文字は、他の環境で読むことができないので、互換性の上で重大な問題を引き起こす。

JIS規格においては、JIS X 0208-1997で空き領域を外字として使用することが原則禁止され、JIS X 0213-2000では、従来の空き領域に文字を追加したため、完全に使えなくなった。

なお、外字とは表外字(規格表の外の文字)の略であり、狭義にはユーザがデザインして用いるユーザ定義文字を指し、広義にはメーカーなどが定義した機種依存文字もしくはベンダ拡張漢字というものを含めることがある。

ベンダごとの文字コード


富士通

  1. JEF<ジェフ>
    • メインフレーム(Mシリーズ、GSシリーズ)で利用される。JIS C 6226-1978をGRに展開し、その上方エリアに『JEF拡張漢字』というベンダ選定拡張漢字を配置。
  2. EUC-U90
    • DS/90系UNIXサーバで利用される。JIS90年版をGRに展開し、『JEF拡張漢字』をシングルシフトのGR展開で表現。

NEC

  1. JIPS(J)<ジップスジェー>
  2. JIPS(E)<ジップスイー>
  3. NEC内部コード(E)
    • ITOSA-VX系のオフコンで利用される。JIPS(J)の上1バイトをシフトさせたものに対して上下1バイトをそれぞれEBCDICに変換して得られるコード。

日立

  1. KEIS(78)<ケイスナナハチ>
    • メインフレーム(Mシリーズ、APシリーズ)で利用される。JIS C 6226-1978をGRに展開し、その上方エリアに『拡張文字セット3』というベンダ選定拡張漢字を配置。
  2. KEIS(83)<ケイスハチサン>
    • メインフレーム(Mシリーズ、APシリーズ)で利用される。JIS X 0208-1983をGRに展開し、その上方エリアに『拡張文字セット3』というベンダ選定拡張漢字を配置。

日本IBM

  1. IBM漢字

日本ユニシス

  1. LETS-J<レッツジェー>
  2. JBIS<ジェイビス>

三菱電機

  1. JSII<ジェイエスツー>(『MELCOM漢字』とも呼ばれる)

DEC

  1. DEC漢字
  2. Super DEC漢字
    • ミニコンVAX用OSであるVMSで利用される。JIS X 0208-1983をGRに展開し、その左方エリアにベンダ選定拡張漢字を配置。そして、シングルシフトのGR展開でJIS X 0212を表現。

(符号化)文字集合/文字符号化方式


「符号化文字集合」とは「Coded Character Set」の訳語であり、「文字符号化方式」とは「Character Encoding Scheme」の訳語である。

文字コードを語るときに非常によく混同されるのが文字集合符号化方式の違いである。文字コードには、文字集合は等しいが符号化方式だけが異なる文字コードと、そもそも対象としている文字集合そのものが異なる文字コードがある。たとえば、日本語にはJIS X 0208というひとつの文字集合に対してISO-2022-JP(JISコード等と呼ばれることが多い)、EUC-JPShift_JIS など複数の符号化方式が存在する。Unicodeにも単一の文字集合に対してUTF-8UTF-16Punycode などの異なる符号化方式が存在する。また、それぞれ異なる文字集合を同じ符号化方式とする関係もあり、符号化方式EUCに対してEUC-JPEUC-CNなどがある。通常、文字コードといえば符号化方式をさすこともあれば、文字集合と結合させた概念として語られることもある。これには、ISO 8859Big5のように、文字集合と符号化方式が事実上一体化している体系が少なからず存在することも影響している。

1バイト系符号化文字集合

1バイト系文字コードは、いわゆる半角英数字と呼ばれるもの。

2バイト系符号化文字集合

2バイト系文字コードは、いわゆる全角文字と呼ばれるもの。

文字符号化方式

多言語文字集合

多言語を同時に扱うことを目的として開発された文字コード体系。

印刷業界の文字集合

印刷業界においては、公的な文字コード規格では包摂されている異体字グリフの相違を厳密に区別したいというニーズが強く存在する。 そのため、そのようなニーズに応える文字集合が企業ベースで策定されている。 一般的な情報交換に用いられることはない。

  • CIDエンコード
    • Adobe-Japan1-0
    • Adobe-Japan1-1
    • Adobe-Japan1-2
    • Adobe-Japan1-3 (OpenType Standard)
    • Adobe-Japan1-4 (OpenType Pro)
    • Adobe-Japan1-5 (JIS X 0213対応)

関連項目


外部リンク


文字コード | Zeichenkodierung | Character encoding | Codificación de caracteres | Page de code | Codificación de caracteres | 字符集

 

This article is licensed under the GNU Free Documentation License. It uses material from the "文字コード".

Home Pageartsbusinesscomputersgameshealthhospitalshomekids & teensnewsphysiciansrecreationreferenceregionalscienceshoppingsocietysportsworld