もひとつ漢和辞典に文字コードをみる

(2012/04/02)

　漢和辞典に記載されている文字コードの話をつづけます。

　前回まで、JIS漢字だと普通の字体に「包摂」されている旧字・異体字に対して、漢和辞典でどんなふうにUnicodeを掲げているかを見てきました。「Unicodeを記載」とうたっている辞典同士でも、細かく比べると、同じ字に対してUnicodeを示していたりいなかったりしていました。

　「よく見かけるのにJIS漢字だと出せない異体字って、ほかにもけっこうあるよね。そうそう、タツサキはどうなの」
　「右上が『立』の形の『﨑』ですね。第1・第2水準には無いんですが、実はJIS漢字では包摂しないことになっていて、第3水準に入ったんです。まあそれ以前からWindowsの機種依存文字としておなじみでしたけど」
　「そうなんだ。じゃあ、あれだ、ツチヨシは？」
　「『』ですか。JIS漢字だと『吉』のコードに包摂されるので、独立したコードはありません」
　「上と下のどっちの横棒が長いかっていうだけだからなあ。これはさすがにUnicodeにも無い？」
　「それが、実はあるんです」

　漢和辞典では、「」は常用漢字「吉」の脇に掲げられ、“俗字”などと記されています。

　姓などでこの字体にこだわりを持つ人も少なくありませんが、読みや意味は「吉」と全く同じ。戸籍の字が「」である場合、本人の申し出により「吉」に直すことができます。俗字を正字に訂正する、という扱いです。

　この字体への個々人のこだわりをどうみるかはおくとして、非常にポピュラーな異体字であることは間違いありません。しかしJIS漢字では、「」は「吉」と同一視され、「吉」のコードポイント（区点2140）に包摂されるため、文字コードのレベルでは《「吉」でなく「」である》ということを表現することはできません。

　ところが、Unicodeでは事情が異なります。

　漢和辞典が「」のUnicodeをどう記しているかをご覧ください。参照したのは前2回と同様、「漢字源改訂第5版」（学研）、「新選漢和辞典第8版」（小学館）、「全訳漢辞海第3版」「新明解現代漢和辞典」（いずれも三省堂）、「旺文社漢字典第2版」（旺文社）の5種類です。

　【】

　　20BB7 ＝漢字源、新選漢和、新明解現代漢和
　　コード記載せず＝全訳漢辞海、旺文社漢字典

　五つの漢和辞典のうち、三つが「20BB7」というUnicodeを載せています。

　「2xxxx」という16進法で5桁のコード領域は、Unicodeのなかで「追加漢字面」と呼ばれ、2001年に追加されました。前にも述べた通り、「全訳漢辞海」と「旺文社漢字典」はもともとこの「2xxxx」の領域は載せておらず「」についても空欄ですが、ほかの三つの漢和辞典はどれも「＝20BB7」と載せています。

　この「」はワープロやパソコンでは使えない――そう諦めていた人も少なくないと思いますが、Unicodeに定義されたおかげで、それなりに使えるようになってきています。

　JIS漢字とUnicodeの関係を、前回と同じような図で示すと以下のようになります。

　実際にパソコンで表示させてみましょう。

　下の図はマイクロソフトの仮名漢字変換「Microsoft Office IME 2010」でIMEパッドを呼び出し、「文字一覧」から「20BB7」を探し出したところです。左の「文字カテゴリ」のところで「追加漢字面」を選ぶと、「2xxxx」の領域が出てきます。

　一般にパソコンの文字というのは、「その字のイメージがちゃんと出るか」や「どんなデザインになっているか」はフォントによって異なります。Windowsでいうとメイリオにはこの字が入っていますが、文書作成などで最もよく使われるＭＳ明朝やＭＳゴシックには「」の文字イメージが搭載されていません。Macに標準搭載されているヒラギノには「」が入っていますが、いずれにしてもフォントによって事情が異なるわけです。

　フォントにその字のイメージが含まれていないときに、OSの機能によって、中国語など別のフォントで表示されることがありますが、文字のスタイルがそろわずあまり美しくはありません。「」を本格的に使うのであれば、この字が入った日本語フォントを用意しておくのがよいでしょう。

　5桁のUnicodeの場合、フォントがそろっていてもアプリケーションのほうがそのコード領域に対応していないことが（企業内システムなどではしばしば）ありますから、そのあたりも注意が必要です。

　　　　　　　　　◇

　このように5桁のUnicodeはただでさえ環境を選ぶのですが、5桁で表される漢字のなかにも、さらに特殊なものがあります。4桁の領域にあった「互換漢字」が、こちらにもあるのです。

　以下は、「5桁の互換漢字」のUnicodeを一部の漢和辞典が示している例です。

　【】＝冬の旧字体

　　2F81A ＝新選漢和、新明解現代漢和
　　コード記載せず＝漢字源、全訳漢辞海、旺文社漢字典

　【】＝諭の旧字体

　　2F9D0 ＝新明解現代漢和
　　コード記載せず＝漢字源、新選漢和、全訳漢辞海、旺文社漢字典

　前にも触れましたが、「互換漢字」とは、Unicodeと各国の既存の文字コードとの間で相互に変換できるように、Unicodeで本来は統合することになっている字形を、分けて置いておくための領域です。

　Unicodeが「0000～FFFF」という4桁の範囲だった時代、互換漢字は「F9xx」または「FAxx」で表されるあたりだけでしたが、「2xxxx」で表される追加漢字面が定義されたときに、その一番後ろのほうにも542字の互換漢字（2F800～2FA1D）が設けられ、台湾の文字コードに対応する字が入りました。

　この互換漢字の中にたまたま「」などが入っており、一部の日本語フォントは字体の区別のためにこの領域のコードを利用しています。以前紹介した、2点しんにょうの「」と同様です。

　「」についてJIS漢字とUnicodeの関係を図で示すと下のようになります。

　互換漢字は、互換性の維持という本来の目的以外で使うべきではないとされていますから、日本以外の地域のための互換漢字のコードを漢和辞典が掲げるのが妥当かどうかは、判断が分かれるところです。掲げるのであれば、やはり「これこれの基準にもとづいてUnicodeを示している」などと明記すべきではないでしょうか。

　前回までに見た5字と今回の「」「」「」の3字の計8字について、5種の漢和辞典におけるUnicodeの記載状況をまとめてみたのが下の表です。追加漢字面の「2xxxx」まで載せている辞書同士でも、ぴったり同じではないことがお分かりいただけると思います。

　それにしても、漢和辞典はどこまで文字コードにつきあうべきなのか。そろそろそのあたりを考えてみてもいいように思います。

（つづく）

（比留間直和）

もひとつ漢和辞典に文字コードをみる

Twitter