第九話 文字セットと文字コード
ひと昔前には、メールを開いたら*@a?/!xj¥%みた いな宇宙語が出てきたなんてことがよくありました。この文 字化けの原因になるのが文字セットや文字コードです。
世界各国にはいろいろな文字があるので、コンピュータで これらを表示させるために一定のルールを作ることが必要に なります。そこで、どんな文字をどういう順番で収録する かを定めた文字の集合体「文字セット(文字集合)〈CSS〉」 という概念が生まれました。世界で最初に作られた文字セッ トは米国規格協会ANSIが作ったAscii という文字セットで す。日本では1969年にJISX0201 という文字セットが作 られましたが、当時は半角英数字と半角カナだけしか扱えませんでした。
文字セットはただの文字の集合体なので、これをコンピュー タで扱える01のコードにしたものを「文字コード」、その変 換(エンコーディング)方式のことを「符号化方式〈CES〉」 といいます。有名なものとしてはShift-JIS やUTF-8 などが あります。冒頭の文字化けは、メールソフトで使っている符 号化方式が、送信側と受信側で異なることによって発生する 現象です。最近あまり見なくなったのは、メールソフトが符 号化方式の違いを自動的に修正してくれるようになったこと と、世界中で使われる文字セットや文字コードの種類が絞ら れてきているためと考えられます。
現在日本ではJISX0208 やJISX0213 という文字セットが 公的なものとして普及していますが、JIS規格を拡張する 形でAdobe社の「Adobe-Japan1(A-J1)」やマイクロソフ ト社の「メイリオ文字セット」など企業や団体ごとに定めて いるものもあります。
印刷の現場では、このコラムでも何度かとりあげたように、 氏名などで使われる字体・字形が微妙に異なる漢字を扱え るようにするために、A-J1 を使うのが一般的になっており、 A-J1-0 から末尾の番号が大きくなるに従って収録文字数が 増え、最新のA-J1-7 では2万3060字が収録されています。