異体字セレクターは、UnicodeおよびISO/IEC 10646で、異体字を表現するための機能文字です。
あるUnicode文字に後置することでバリエーション番号を与え、幾種類かの異体字を選択可能にする技術です。Unicodeの漢字は「統合」(あるいは包括)されていることを特徴としますが、その統合された様々な異体字を区別するために追加された仕様です。
UnicodeおよびISO/IEC 10646には、モンゴル文字用と、汎用の異体字セレクターが存在します。
漢字は、汎用の異体字セレクターのうち17番以降を使用することになっています。
[文字] [異体字セレクター] のように、後置で使用します。
UTF-8なら、漢字は3ないし4バイト、異体字セレクターは4バイトなので、一文字を計7から8バイトで正確に表現可能になります。
例えば、葛飾区と葛城市の「葛」には、二つの字形があります。
どちらの文字も、U+845Bという符号位置に統合されています。
しかし、異体字セレクターを使って、次のように区別することができます。
葛城市はU+845B U+E0100の、葛飾区はU+845B U+E0101の
を使用しています。
城、飾にも異体字がありますから、これらを含めて正確に表現した場合、次のようなシーケンスになります。
見やすいように一文字ごとに/で区切りを入れてあります。
異体字セレクターには、メリットとデメリットがあります。
メリットとしては、異体字セレクターを無視することで、異体字を一つの文字として認識でき、異体字を含めた検索が容易になることです。人名検索などに効果を発揮するものと思われます。
デメリットとしては、一文字を表わすバイト数が増えることや、異体字セレクターの処理が面倒であることなどが挙げられます。
弊社では、次の文字集合に対し、異体字セレクター付きのUnicodeとの変換表を完成させています。
JIS X 0208/0213→Unicodeについては、JIS X 0208-1990を基本の変換表とし、それ以外との差分表などを別途用意することで、全ての版の正確な変換が、少ない容量で実現されます。
また、次の異体字セレクター付きのUnicodeとの変換表を用意しています。まだ完全ではありませんが、実用水準になっています。
今後は、JIS X 0212や、大陸簡体、台湾正体、南北朝鮮の漢字集合などに対し、異体字セレクター付きの変換表を作成する計画でいます。
弊社製品「もじかん」では、異体字セレクター対応変換表を使用して、実装を進めています。
JIS X 0208/JIS X 0213の規格票の字形に準拠し、異体字セレクター対応の変換表が作られ、実装されています。
漢字には全て異体字セレクターが付けられており、正確な字形の区別が可能となっています。
諸橋大漢和辞典との相互変換なども、厳密に行なうことが可能です。
弊社「もじかん」では、異体字セレクターを内部で使用するだけでなく、必要に応じて出力することもできます。
UTF-8やUTF-16など、Unicodeの符号系であれば、オプションで設定可能です。
製品、フリーソフトウェアなど様々ありますが、異体字セレクターに対応したものは、現時点では「もじかん」以外に知られていません。
JIS X 0208/JIS X 0213の変換表はフリーでも広く存在しますが、異体字セレクターに対応したものは存在しないようです。
そこで弊社は、世界に先駆け、この異体字セレクターに対応した変換表を作成いたしました。今後、異体字セレクターが当たり前の時代が訪れると見込まれますが、いち早くその実装を済ませております。
異体字セレクター対応の変換表そのものを提供することができます。
具体的には「もじかん」で利用されているC/C++の構造体や周辺の処理関数などです。
電子メールで、info@mirai-ii.co.jpまでよろしくお願いします。