還暦QPONブログ

アクセスカウンタ

help RSS 日本語の文字コードがいくつもある理由

<<   作成日時 : 2011/12/13 22:56   >>

なるほど(納得、参考になった、ヘー) ブログ気持玉 2 / トラックバック 0 / コメント 0

文字コードがなぜ、何種類もあるのかをついて解説してみます。
1980年前後のコンピューターでは、文字は英数、カタカナしか使えませんで
した。
パソコンの日本入力のツールバーの入力モードで「半角」で入力でできる種類です。
このときの文字コードは「0〜255」までしかありませんでした。
一般に「アスキーコード」と呼ばれています。
1990年前後になって漢字を使えるようにしようと、漢字コードが作られました。
最初にJIS(日本工業規格)とEBCDIC(IBM規格)が作られましたが、パソ
コンではJISが使われました。
このコードはキーボードにある英数字と記号(アスキーコード33〜126)を
2文字組み合わせて表すというものです。
そのため2バイト文字とか倍角文字とも呼ばれています
文字化けしたメールでよく見られる「$3$s$K$a$O」のようなものです。
「$3」→「こ」
「$s」→「ん」
「$K」→「に」
「$a」→「ち」
「$O」→「は」
JISコードで送られていた文字コードが復元できなかったものです。
このコードの欠点は1バイト文字と2バイト文字を見分けるために2バイト文字
が始まる先頭に2バイト文字開始コード、終り終端コードで挟むルールになって
いることでした。
先頭から順に復元していく場合は問題ないですが、途中から復元したりするとこ
のコードが欠けて復元できません。
これを解決するために作られたのが
文字コードの1文字目のコードに128を加えてアスキーコードの33〜126
と重複しないようにした「Shift_jis」や「EUC」文字コードが作られました。
Microsoftがパソコンで「Shift_jis」を使ったので、パソコンではshift_jisが
標準になりました。
なぜsiftと言うのかというと2進で1桁繰り上がる(128が加わる)ためです。
日本語の体系はこれで解決したのですが、各国も自国の言語の文字コードを、こ
の部分に割り当てたので、たとえば日本語のページにハングルを混ぜて書くこと
ができません。
そこで世界の主要な文字全部にダブらない文字コードとして作られたのが「utf-
8コード」です。
それなら世界標準の「utf-8」を使うほうが正しいといいたいかもしれませんが
日本でも日本語を使わず英語を使うのが正しいという理屈と同じで、過去の資産
を無視することになります。

以上を理解したうえで各文字コード
http://www2a.biglobe.ne.jp/~qpon/html/bit_byte.htm
を見比べるのもいいのでは

以上、ご参考までに

テーマ

関連テーマ 一覧

月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 2
なるほど(納得、参考になった、ヘー)
驚いた

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
日本語の文字コードがいくつもある理由 還暦QPONブログ/BIGLOBEウェブリブログ
[ ]