はじめに
コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
というニュースが出たが、突っ込みどころしかない。素人でもこれだけツッコミポイントがあるぞってことを示すために記事にした。
専門家の方、さらなるつっこみや、この記事に対するツッコミをお願いします!
なお以下ニュース映像のキャプチャが出てきますが、著作権法上の引用が成立していると理解しています。
なおUnicodeの異字体セレクタの概念については説明しません。異字体セレクタの検索には
異体字セレクタセレクタ (α v0.3)
https://747.github.io/vsselector/
が便利です。
外字とはUnicodeに収録されていない文字をU+E000〜U+F8FF、U+000F0000〜U+000FFFFD、U+00100000〜U+0010FFFDに割り当てて利用している文字のことです。
Unicode 10.0がISOで発行された
そもそもこのニュースは一体何の話をしているのかというと、Unicode 10.0がISOで発行されたという内容です。一文字もそれらしい言葉が出ないのでさっぱり検索可能性がない!
まともな今回のニュース記事は
ISO/IEC 10646:2017発行 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/617471/
で確認されたし。
つまるところ
要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。
という言葉に今回のニュースは集約される。
全漢字使用可
まず「全漢字」の定義は?現在利用されているすべての漢字?だとすると6万字程度では収まらないですね。
邉󠄂 (U+9089 U+E0102)
この文字ですね。手元の環境だとうまいこと表示してくれないんですが。
Unicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。
ところで異字体セレクタがU+E0102
とU+E0114
の区別がつかないんですが、何が違うんです・・・?
フォント作成の話と文字コード関係ない
フォント作成の話と文字コード関係ないですよね?
髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)
髙はCJK統合漢字としてU+9AD9
にあります。
サロゲートペアの例として散々あちこちで使われている𠮷はUnicode3.2からU+20bb7
にあります。
廣󠄁はU+5EE3の異字体セレクタがU+E0101として登録されています。
いずれもUnicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。
コード
コードってなんぞ?codepointのことか?
当初日本語の漢字は約1万字のみだった
それ本当ですか・・・?
BMP外への拡張
日本は統合漢字の継続的なメンテナンスの保証をもとめ、国際的に承認された。メンテナンスにはIRG(Ideographic Rapporter Groupe、漢字連絡会)があたることになった。
中国は1万字の漢字追加を提案したが、そのスペースにはハングル完成形(注14)を収録することになってしまったので、まとまった空きとしてはハングルのはいっていた6千500字余のスペースしか残っていなかった。中国は1万字追加に固執したが、漢字合成の可能性を検討するという条件で妥協がはかられ、追加字数は1万字から6千500字余に圧縮された。これが後の拡張Aの原形である。
Unicodeで1万なんて数字、これくらいしか私は聞いたことがないんですが、有識者の方、コメントお待ちしています。
CJK統合漢字はUnicode1.1では20,902字だったそうです。
15年掛けてIPAと経産省が
15年というのはいつからいつですかね・・・?
行政の効率化
全漢字使用可でも述べたので割愛
まとめ
NHKしっかりして!
Unicode1.1が1993年、Unicode10.0が今年2017年なんですが・・・。