Edited at 2017-12-25

文字 Advent Calendar 2017 Day 24

Re:コンピューターで全漢字使用可に６万字コード化 #NHKしっかりして

はじめに

コンピューターで全漢字使用可に６万字コード化 | NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

というニュースが出たが、突っ込みどころしかない。素人でもこれだけツッコミポイントがあるぞってことを示すために記事にした。

専門家の方、さらなるつっこみや、この記事に対するツッコミをお願いします！

なお以下ニュース映像のキャプチャが出てきますが、著作権法上の引用が成立していると理解しています。

なおUnicodeの異字体セレクタの概念については説明しません。異字体セレクタの検索には
異体字セレクタセレクタ (α v0.3)
https://747.github.io/vsselector/
が便利です。

外字とはUnicodeに収録されていない文字をU+E000〜U+F8FF、U+000F0000〜U+000FFFFD、U+00100000〜U+0010FFFDに割り当てて利用している文字のことです。

Unicode 10.0がISOで発行された

そもそもこのニュースは一体何の話をしているのかというと、Unicode 10.0がISOで発行されたという内容です。一文字もそれらしい言葉が出ないのでさっぱり検索可能性がない！

まともな今回のニュース記事は
ISO/IEC 10646:2017発行 | yasuokaの日記 | スラド
https://srad.jp/~yasuoka/journal/617471/
で確認されたし。

つまるところ

要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。

という言葉に今回のニュースは集約される。

全漢字使用可

まず「全漢字」の定義は？現在利用されているすべての漢字？だとすると6万字程度では収まらないですね。

邉󠄂 (U+9089 U+E0102)

この文字ですね。手元の環境だとうまいこと表示してくれないんですが。

Unicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。

ところで異字体セレクタがU+E0102とU+E0114の区別がつかないんですが、何が違うんです・・・？

フォント作成の話と文字コード関係ない

フォント作成の話と文字コード関係ないですよね？

髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)

髙はCJK統合漢字としてU+9AD9にあります。

サロゲートペアの例として散々あちこちで使われている𠮷はUnicode3.2からU+20bb7にあります。

廣󠄁はU+5EE3の異字体セレクタがU+E0101として登録されています。

いずれもUnicode 10.0関係ないですね。しかもすでに存在しているので外字でもない。

コード

コードってなんぞ？codepointのことか？

当初日本語の漢字は約1万字のみだった

それ本当ですか・・・？

インターネットと漢字 3/4

BMP外への拡張

　日本は統合漢字の継続的なメンテナンスの保証をもとめ、国際的に承認された。メンテナンスにはIRG（Ideographic Rapporter Groupe、漢字連絡会）があたることになった。

　中国は1万字の漢字追加を提案したが、そのスペースにはハングル完成形（注14）を収録することになってしまったので、まとまった空きとしてはハングルのはいっていた6千500字余のスペースしか残っていなかった。中国は1万字追加に固執したが、漢字合成の可能性を検討するという条件で妥協がはかられ、追加字数は1万字から6千500字余に圧縮された。これが後の拡張Aの原形である。

Unicodeで1万なんて数字、これくらいしか私は聞いたことがないんですが、有識者の方、コメントお待ちしています。

CJK統合漢字はUnicode1.1では20,902字だったそうです。

15年掛けてIPAと経産省が

15年というのはいつからいつですかね・・・？

行政の効率化

全漢字使用可でも述べたので割愛

まとめ

NHKしっかりして！

Unicode1.1が1993年、Unicode10.0が今年2017年なんですが・・・。

はじめに
Unicode 10.0がISOで発行された
全漢字使用可
邉󠄂 (U+9089 U+E0102)
フォント作成の話と文字コード関係ない
髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)
コード
当初日本語の漢字は約1万字のみだった

Re:コンピューターで全漢字使用可に ６万字コード化 #NHKしっかりして

はじめに

Unicode 10.0がISOで発行された

全漢字使用可

邉󠄂 (U+9089 U+E0102)

フォント作成の話と文字コード関係ない

髙(U+9AD9)と𠮷(U+20bb7)と廣󠄁(U+5EE3 U+E0101)

コード

当初日本語の漢字は約1万字のみだった

BMP外への拡張

15年掛けてIPAと経産省が

行政の効率化

まとめ

Report article

Feedback

Re:コンピューターで全漢字使用可に６万字コード化 #NHKしっかりして