(cache) 日本語の文字コードがいくつもある理由還暦ＱＰＯＮブログ/ウェブリブログ

日本語の文字コードがいくつもある理由

<< 作成日時： 2011/12/13 22:56 >>

文字コードがなぜ、何種類もあるのかをついて解説してみます。
１９８０年前後のコンピューターでは、文字は英数、カタカナしか使えませんで
した。
パソコンの日本入力のツールバーの入力モードで「半角」で入力でできる種類です。
このときの文字コードは「０～２５５」までしかありませんでした。
一般に「アスキーコード」と呼ばれています。
１９９０年前後になって漢字を使えるようにしようと、漢字コードが作られました。
最初にＪＩＳ（日本工業規格）とEBCDIC（ＩＢＭ規格）が作られましたが、パソ
コンではＪＩＳが使われました。
このコードはキーボードにある英数字と記号（アスキーコード３３～１２６）を
２文字組み合わせて表すというものです。
そのため２バイト文字とか倍角文字とも呼ばれています
文字化けしたメールでよく見られる「$3$s$K$a$O」のようなものです。
「$3」→「こ」
「$s」→「ん」
「$K」→「に」
「$a」→「ち」
「$O」→「は」
ＪＩＳコードで送られていた文字コードが復元できなかったものです。
このコードの欠点は１バイト文字と２バイト文字を見分けるために2バイト文字
が始まる先頭に2バイト文字開始コード、終り終端コードで挟むルールになって
いることでした。
先頭から順に復元していく場合は問題ないですが、途中から復元したりするとこ
のコードが欠けて復元できません。
これを解決するために作られたのが
文字コードの１文字目のコードに１２８を加えてアスキーコードの３３～１２６
と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。
Microsoftがパソコンで「Shift_jis」を使ったので、パソコンではshift_jisが
標準になりました。
なぜsiftと言うのかというと２進で１桁繰り上がる（１２８が加わる）ためです。
日本語の体系はこれで解決したのですが、各国も自国の言語の文字コードを、こ
の部分に割り当てたので、たとえば日本語のページにハングルを混ぜて書くこと
ができません。
そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf-
8コード」です。
それなら世界標準の「utf-8」を使うほうが正しいといいたいかもしれませんが
日本でも日本語を使わず英語を使うのが正しいという理屈と同じで、過去の資産
を無視することになります。

以上を理解したうえで各文字コード
http://www2a.biglobe.ne.jp/~qpon/html/bit_byte.htm
を見比べるのもいいのでは

以上、ご参考までに