こういうニュースがあった。世界のWebサイトの90%がutf-8を使用している、という。
昔、シフトJISでエンコードされたPHPファイルを編集させられた時、「表示」が表示できず(文字通りの意味である)バイナリリテラルを書いていたことを思い出す。
文字コード断絶の歴史を乗り越え、世界はようやくUnicodeの元に集結したのである。
日本の上場企業のcharset指定状況
さて、美しいニッポンである我が国はどうであろうか、
私は上記のサイトより早速日本の上場企業のHPのリストをダウンロードさせていただくと、さらっとクローラーを書いてHTTPヘッダのcharsetとmetaタグのcharset、ついでにDOCTYPE宣言を集計することにした。
というのは実は嘘で、去年の12月頃にクローラーは出来上がっていたのだ。この記事が出る前にとっくに私は大体の結果を知っていたことになる。
そして集計結果を見た私は驚愕した!
というのも嘘で、「まあそんなもんだろうなあ」というのが実感であった。
大したおもしろい論説も思いつかず、無理やり推論をくっつけて時評っぽく書くことも可能だったが、なんかアホらしいので放置していたのが正直なところだ。
しかしながらこれは、中年Web屋の意見なので、現在SublimeTextでコーディングしている若人なら多少の感慨があるかもしれない。
何しろシフトJISが追認される形で標準化されたのが1997年だ。
自分が生まれるよりはるか以前から使われていた文字コ―ドを今だにWebで使用している上場企業が、果たしてどれほどあるだろうか?と言われれば少しは興味が沸かないだろうか?沸かないかー
結果発表
もったいぶらずに結果をお見せしよう。結果は以下のGoogleスプレッドシートにまとめた。
データは2015年の上場企業の一覧とHP URLによっている。2年の歳月のうちに上場廃止になったり経営統合した企業や、UserAgent偽装したLWPでどうしてもクロールできない企業などは除いて、全部で3592社ある。
DOCTYPE宣言
HTML5の燦然たる証<!DOCTYPE html>を使用するサイトは52.4%であった。その他は暗いHTML4Trasitional//ENの帳にいる。別にそれが悪いことだ、とまで言う気はない。
ちなみに"//EN"って何のことなんでしょうね。
どういうサイトがシフトJISを使っているか
スプレッドシート内の次のシートに各企業別の調査結果が書いてある。
シフトJISの企業を少し見繕ってみよう。
日清オイリオ(東証一部)
落ち着いているが、まだまだ今風のデザインである。でもシフトJIS。ソースを覗くと、body内に埋め込まれたcssが不穏な香りを醸し出すが、CMSを使っていたりして、ヘッダを何らかの理由で固定されているページではよくあることである。
NTTドコモ(東証一部)
最先端IT企業であるNTTドコモもシフトJISユーザーである。i-mode携帯は出荷が終わったが、i-mode自体はまだあるので(多分)その対策かもしれない。i-modeユーザーがこのトップページを見ることがあるのかは甚だ疑問だが。
飽きたので総論
詳しくはスプレッドシートのほうを思う存分見ていただければいいと思う。
たまに、変な文字コードなのに見に行くと、ちゃんとutf-8だったりするが、それはリダイレクトを検知できなかったことによるものだったりする。(HTTPヘッダではなくMETAタグやJSでやられたら対応不可能なのである)
そのへんはノークレームということで。
全般的に新しい企業やIT企業はutf-8とhtml5の組み合わせが多かった。というより現代においてはそうしない理由は特にない。
それでもシフトJISやHTML4が幅を利かせているのは、変更して何かが起こったら怖いから、とか、検証に時間とお金をかけられない、ということなのだろう。
ここで、日本企業のIT投資の弱さや保守的な性格を論じてもいいのだが、シフトJISだから、日本はダメとか言うのも根拠としてはいかにも薄弱なので、まあ日本ってそんなもんっすよ。
という感想を述べて本稿を終えたいと思う。ではまた。
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
- 作者: 矢野啓介
- 出版社/メーカー: 技術評論社
- 発売日: 2010/02/18
- メディア: 単行本(ソフトカバー)
- 購入: 34人 クリック: 578回
- この商品を含むブログ (129件) を見る