文字コードがなぜ、何種類もあるのかをついて解説してみます。 1980年前後のコンピューターでは、文字は英数、カタカナしか使えませんで した。 パソコンの日本入力のツールバーの入力モードで「半角」で入力でできる種類です。 このときの文字コードは「0〜255」までしかありませんでした。 一般に「アスキーコード」と呼ばれています。 1990年前後になって漢字を使えるようにしようと、漢字コードが作られました。 最初にJIS(日本工業規格)とEBCDIC(IBM規格)が作られましたが、パソ コンではJISが使われました。 このコードはキーボードにある英数字と記号(アスキーコード33〜126)を 2文字組み合わせて表すというものです。 そのため2バイト文字とか倍角文字とも呼ばれています 文字化けしたメールでよく見られる「$3$s$K$a$O」のようなものです。 「$3」→「こ」 「$s」→「ん」 「$K」→「に」 「$a」→「ち」 「$O」→「は」 JISコードで送られていた文字コードが復元できなかったものです。 このコードの欠点は1バイト文字と2バイト文字を見分けるために2バイト文字 が始まる先頭に2バイト文字開始コード、終り終端コードで挟むルールになって いることでした。 先頭から順に復元していく場合は問題ないですが、途中から復元したりするとこ のコードが欠けて復元できません。 これを解決するために作られたのが 文字コードの1文字目のコードに128を加えてアスキーコードの33〜126 と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。 Microsoftがパソコンで「Shift_jis」を使ったので、パソコンではshift_jisが 標準になりました。 なぜsiftと言うのかというと2進で1桁繰り上がる(128が加わる)ためです。 日本語の体系はこれで解決したのですが、各国も自国の言語の文字コードを、こ の部分に割り当てたので、たとえば日本語のページにハングルを混ぜて書くこと ができません。 そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf- 8コード」です。 それなら世界標準の「utf-8」を使うほうが正しいといいたいかもしれませんが 日本でも日本語を使わず英語を使うのが正しいという理屈と同じで、過去の資産 を無視することになります。 以上を理解したうえで各文字コード http://www2a.biglobe.ne.jp/~qpon/html/bit_byte.htm を見比べるのもいいのでは 以上、ご参考までに |
<< 前記事(2011/12/12) | ブログのトップへ | 後記事(2011/12/14) >> |
タイトル (本文) | ブログ名/日時 |
---|
内 容 | ニックネーム/日時 |
---|
<< 前記事(2011/12/12) | ブログのトップへ | 後記事(2011/12/14) >> |