世界的な絵文字の普及によってUTF-8の普及やUTF-16における4バイト文字の扱いが改善される? 15
ストーリー by hylom
マルチバイトを扱う面倒くささを思い知れ 部門より
マルチバイトを扱う面倒くささを思い知れ 部門より
世界的な絵文字の普及によって、UTF-8の普及やUTF-16における4バイト文字の扱いが改善されつつあるという(絵文字がある種のUnicodeバグを世界から一掃しつつある件について)。
そもそも使用する文字が少ない欧米圏では、いわゆる「マルチバイト文字」の扱いに消極的、もしくは理解が足りないという歴史的な問題が存在した。そのためさまざまな文字エンコーディングが開発され、その後世界中のすべての文字を統一したエンコーディングで扱おうとする動きが出たものの、その結果欠点の多いUTF-16というエンコーディングを採用するプログラムや環境が登場したという。UTF-16では1文字を2バイトもしくは4バイトで表現するが、使用頻度の高い文字の多くは2バイトで表現されるため、「1文字=2バイト」を前提に処理を行ってしまうプログラムがあるという。
いっぽう、絵文字は基本的に1文字に4バイトが必要となる。そのため、「1文字=2バイト」を前提としたプログラムでは上手く処理できない。そのため、絵文字の普及によって適切に4バイトの文字を扱えないプログラムが改修されたり、 元々可変長が前提のUTF-8がより普及するのではないかとされている。
うんこ絵文字に (スコア:3, おもしろおかしい)
感謝ですね。うーんこの
Re:うんこ絵文字に (スコア:2)
Re: (スコア:0)
うんこ絵文字だけで記述可能なプログラム言語ができるに1000TOTO
whitespace [wikipedia.org]ぐらいには話題になりそう
Re: (スコア:0)
今後カラーうんこやアニメーションうんこが増えるたびに俺たちの苦労が減る
はず
Re:うんこ絵文字に (スコア:1)
その分「政治的に正しいうんこの肌の色」とかが仕様に追加され苦労が増えます
ここはemoji👌? (スコア:0)
emoji test 👌
Re: (スコア:0)
OKサインは「」
IMEによって出すにはどうすんだろう
コード番号指定?
一覧からマウスで選択?
Re: (スコア:0)
昨今の日本語IMEなら変換で普通に出てくると思う。
GoogleIMEなら「OK」で「🙆👌🆗」の3候補。
「おーけー」で「👌👍🆗」の3候補。微妙に違うのな。
MS-IMEなら「おーけー」で「👌🆗」の2候補。
アルファベット圏なら、絵文字入力用のソフトとかあるしそういうの使ってるんじゃ?
Font (スコア:0)
Fontもまともなものがそろうといいなあ。
Windowsのフォントエンジンやフォントヴューアの不具合で使えないフォントが結構ある。
フォントのフォーマットのバージョンが違うだけかもしれんがな。
IVSとUnicode 10.0にフル対応したVariable FontでSans Serif/Serif/Monospaseの3種類をそろえられるのは、大夫先だろう。
ましてや、フリーかWindows標準添付となるとなおさら・・・
Re: (スコア:0)
CKJ以外なら山ほどあるのにな
Re: (スコア:0)
とりあえず、IPAmj明朝とNotoシリーズでお茶を濁しておいたら?
Re: (スコア:0)
>バージョン
なんだこれw
気にならないのか
Re: (スコア:0)
Variable Fontだと、Windows 10 ver.1709でもOpenType-CFF2なvariable fontには一部しか対応してないぞ。
svg形式のデータを含むフォントについても、Windows 10 ver.1709でも駄目だね。
おかげで、Windowsだと、カラー絵文字系のフォントはWindows添付品しか使えない。
Re: (スコア:0)
>フォントヴューア
MSの表記だと、「Windowsフォント ビューアー」が正しい表記だね。
一方日本では。。。 (スコア:0)
4バイト文字を組み合わせて絵文字を作った