世界のWebサイトで文字コードがUTF-8のページが90%を超える 28
ストーリー by hylom
ちゃんと指定してくれれば問題は無いのだが 部門より
ちゃんと指定してくれれば問題は無いのだが 部門より
W3Techsが公開している「Usage of character encodings for websites」という統計情報によると、世界中のWebサイトにおいて使われている言語のうち、UTF-8の割合が90%に達している(INTERNET Watch)。
とはいえ、Shift-JISやEUC-JPも多少ではあるがまだ使われており、Shift-JISについてはKakaku.comや2ch.netなど、EUC-JPについてはRakuten.co.jpやGeocities.jp、Mixi.jpなどで使われているという。
未だ (スコア:1)
未だに社内向けの適当なWeb頁では charset=x-euc-jp つこてまんがな。
#Terminal環境設定のまま
ISO-8859-1少ねえ (スコア:0)
ISO-8859-1がたったの4.6%というのに驚いた
何の根拠もなく漫然と、50%くらいあるんじゃないかと思ってた
ISO-2022-JPも少なかった (スコア:2)
Shift_JISやeuc-jpよりiso-2022系の方が多いかと思ってたら、全然逆でした。
HTML5では (スコア:0)
UTF-8以外は規格違反だそうですね。
なんでそんなことになったんだか…。
Re:HTML5では (スコア:2)
そうだったのか
ちょうど昨日触った金融機関のサイトはHTML5宣言でShift_JISって書いてた
なんでもPOST先の外部システムの要件がShift_JISだそうで
Re:HTML5では (スコア:1)
>なんでもPOST先の外部システムの要件がShift_JISだそうで
その先のシステムが、旧来からのPCでの処理がメインのままで更新できないんすかね。
旧いデータも参照しないといけないだろうし、扱うデータから出力データまで一気に文字コード切り替えるのもけっこうたいへんそう。
Open/Closeの際に文字コード判別してフィルターかますだけでも良さそうだけど。
Re: (スコア:0)
文字コードはとりあえず統一するってのは鉄則だと思うけど。
文字化けの怖さを経験した人なら誰しも考えることだ。
#HTML5タグで他の文字コードが使いたければ、HTML5を名乗らず独自フォーマットにしとけばいいだけ。
#どーせ標準ツールでの動作保証がなくなるのは同じなんだし。
Re: (スコア:0)
https://www.w3.org/International/questions/qa-html-encoding-declarations.ja [w3.org]
>HTML5仕様ではUTF-16の指定をmeta要素で行うことを禁じています
これを間違って覚えてたんじゃない?
Re: (スコア:0)
HTML文書は文字エンコーディングUTF-8でなければなりません [hatenablog.jp]
Re: (スコア:0)
むしろこっち。
http://momdo.hatenablog.jp/entry/20171008/1507462678 [hatenablog.jp]
はてブも。
http://b.hatena.ne.jp/entry/momdo.hatenablog.jp/entry/20171008/1507462678 [hatena.ne.jp]
意外な結果 (スコア:0)
utf-8 が大多数なのは想定内としても、
それ以外の数字がかなり意外。感想を並べると、
・iso-8859-1が思ったより随分少ない。
・世界統計であって日本国内限定でないのに、パーセンテージの4番目に ShiftJISがある。
・中国語圏のBig5が極端に少ない。
・アラビア系が少ないのは逆に想定内か。
・EUC-KRはまぁこんなもんか。
・ロシア系キリル文字圏や、イタリア、スペイン、フランス等のアクセント記号付きアルファベット文化圏は全部Unicodeに含まれるとして、固有のエンコードって無かったのかしら。
ぱっと頭をよぎったのはこんな感想。
Re: (スコア:0)
Windows-なんちゃらがそうだよ。
>固有のエンコードって無かったのかしら。
メールも (スコア:0)
ISO-2022-JPじゃなくてUTF-8になってくれ。
Re: (スコア:0)
それは別にかまわんが、いちいちBASE64でエンコードするのやめてくれない?
Re: (スコア:0)
8年前かぁ。今の情勢はどうなんだろう。
https://it.srad.jp/story/09/01/18/0653225/ [it.srad.jp]
ちなみにUTF-8でバンバン送ってる。
日本語 Windows の標準が UTF-8 なら (スコア:0)
取り扱う文書が全部 UTF-8 になって苦労がないのになぁ。
Re: (スコア:0)
もう何年もエロげのREADME以外でSJISのテキストは見たことないよ
Re: (スコア:0)
ファイル名もUTF-8にしてほしいでありんす。
LinuxもMacもUTF-8なのにシェア多数のWindowsだけがSJISなせいで圧縮ファイルのやりとり面倒。
MacでUTF-8で書いたテキストファイルもWindowsの知り合いのマシンじゃ文字化けと文句言われる。
ほんとWindowsさんもうそろそろ勘弁してほしい。
Appleも思いきって(APFSに)ファイルシステム変えるまで強引にしてきたし、Windowsさんも文字コード変えちゃいましょうよ。
Re:日本語 Windows の標準が UTF-8 なら (スコア:1)
圧縮ファイルっていうところからzipの問題だと思いますが、フォーマット自体の問題もありますが、世の中に出回っている圧縮展開ソフトの実装がクソすぎるのでどうにもならないでしょう。zipは捨てて7zにしよう。
Re: (スコア:0)
UTF8同士でも化けるのよね
http://macwiki.osdn.jp/wiki/index.php/UTF-8-MAC [macwiki.osdn.jp]
Re: (スコア:0)
世界中から殺到するであろうゴカンセイガーという苦情に対して
お前がMSに代わって半永久的に無料で24時間サポートするんならやってくれるよ、多分
Re: (スコア:0)
使ってる圧縮ツールの問題ですよね。
Windows上のアーカイバって、メジャーなものはエンコードは選択できるのが普通。
WinRar/WinZip あたりは、デフォルトエンコードも UTF-8 、7zip は、オプション指定が必要ですけどね。
まぁ UTF-8 に統一されても MacはUTF-8を名乗ってても UTF-8-MACのことでUTF-8ではないので、問題は解決しませんが。
Re: (スコア:0)
Windows自体(エクスプローラ)にも圧縮機能があってですね…。
しっかりSHIFT_JISになってるようです。(Windows7では)
じゃあそれに含まれない文字のファイル名なファイルを圧縮…できない模様。
Re: (スコア:0)
WSHとかシェル(コマンドプロンプト)のリダイレクトとか。
Re: (スコア:0)
メモ帳でBOMありUTF-8しか作れないの何とかして欲しい。
Re: (スコア:0)
逆だろ
unixがBOM付きUTF-8をサポートするのが正解
https://twitter.com/aetos382/status/670084294631649280 [twitter.com]
根拠 (スコア:0)
リンク先にあった
See technologies overview for explanations on the methodologies used in the surveys.
を辿って出たページに、こう書いてあった。
https://w3techs.com/technologies [w3techs.com]
We include only the top 10 million websites (top 1 million before June 2013) in the statistics in order to limit the impact of domain spammers. We use website popularity rankings provided by Alexa (an Amazon.com company) using a 3 months average ranking. Alexa rankings are sometimes considered inaccurate for measuring website traffic, but we find that they serve our purpose of providing a representative sample of established sites very well.
ここ5年以内で、Alexaのランキング100万を占めた1000万のサイトの文字コードから判定しているらしい、程度にしかおいらにはわからんので、引用していない部分も含め、精確な解説希望。
日本での割合は? (スコア:0)
同じソースのserver locations for websites [w3techs.com]によると日本にあるサーバーは5.5%。
単純に国内以外に日本語のページがないと考えちゃうと、
Shift JIS 0.8%、EUC-JP 0.3%は合計20%に相当。UTF8は80%相当ということかな。世界が90%だからちょっと遅れてる感じ。
#統計にある「language」は意味が違った・・・