「ケ」と見える文字をどう入力するか
2003年1月21日 作成
2012年1月19日 修正
富田倫生
底本の文字を、テキストに写し替えるにあたって、青空文庫では「こ」「か」「が」と読む、「ケ」のような形の文字は、JIS X 0208の「5-86」で入力するという作業方針を立てています。
現在、私自身はこの方針で進めることを支持していますが、その考えに至るまでには経緯がありました。
ここに置いた文章は、青空文庫の仲間と、ああでもないこうでもないと検討する過程で作成した、後に振り返って評価すれば、誤りを含んだメモです。
こうした紆余曲折を経て、なぜこれで進めるのが妥当と思うに至ったかの結論を見ていただくのなら、個人ページにおいた「「ケ」のように見える文字の入力について」からたどっていただくのが適当です。
ここに至るまでの間違いの経過を確認したいということであれば、以下を読み進めてください。
この文字に関する青空文庫の検討は、まず、底本の文字が大きな「ケ」なのか、小さな「ヶ」なのか見極めがつかないときは、どうするかというところから始まりました。
この取りかかりの時期に書いたのが、「面区点番号1-5-86の「ヶ」について」というメモです。
ポイントを絞り込めておらず、大きく作られた「こ」「か」「が」と読むものをカタカナと決めつける誤りを犯しています。
これから1年近くたって、今、あなたが開かれている「「ケ」と見える文字をどう入力するか」を書きました。
問題の整理が多少進んだように見えますが、ここでもJIS X 0208:1997の規格票には、問題の文字が、どのコードに対応するかを示す手がかりが与えられていないとする、誤りを犯しています。
その誤りを正し、問題の文字と、コードとの対応関係が規格に示されていると立場を変えたのが、「区点番号5-17と5-86の使い分けに関して」です。
この理解に至ったので、後に青空文庫の作業方針となる「区点番号5-17と5-86の使い分け指針」の採用に向けて、私も努力しました。
この方針には、「底本の大きなケを、テキストの小さなヶで入力することは、作品の改変にあたる」という立場から、反対論が主張されました。
これにこたえる意図でまとめたのが、「「ケ」のように見える文字の入力について」です。
反対の立場をとる人の中には、「規格は「こ」「か」「が」と読む文字と、カタカナの「ケ」を区別していない。規格にあるのは、どちらもカタカナで大小の差のある「ケ」と「ヶ」だけだ」という主張がなされました。
そこで、規格の原案委員会委員長をつとめられた、芝野耕司(東京外国語大学アジア・アフリカ言語文化研究所教授)さんをお招きして、「「電子翻刻における「読み」と「見たまま」」と題した講演会を開きました。
そこでは、規格は問題の文字をどう位置づけているか、加えて、青空文庫の作業方針についても、触れていただいています。
興味のある方には、公開されているビデオの講演記録をご自身で見ることをおすすめしますが、私は芝野さんの発言を、以下のように聞きました。
- 青空文庫の作業方針は、規格の定めにそっている。
- ただし規格の定めに反して、片仮名の「ケ」を使う用例も、世間には広く見受けられるように思う。
- であれば、「規格遵守」の規範的な立場にこだわるだけで良いか。テキスト作成において、事実、「ケ」が広く使われているのなら、青空文庫にもそれを受け入れる姿勢が求められるのではないか。
- そして規格もまた、現実に広く行われている用法にそって規定をあらため直す必要があるのではないか。
- そのように考え、統計データを取った。
- 結果は、事前の予想に反して、規格の定め通りの用例が、あきらかに優位だった。
- であるなら、青空文庫は規格にそった現在の作業方針をあらためる必要はない。
- 規格もまた、片仮名の「ケ」に、そのような用例を認める変更を加える必要はない。
以上(2012年1月19日、前付けとして追記)
【「ケ」と見える文字の二つの起源】
「ケ」と見える文字には、二つの流れがある。
一方は、片仮名の「ケ」であり、その字形は「介」の一画を省いた形に由来する。
もう一方は、ものを数える際に「箇」に代えて用いられることのある「ヶ」であり、その字形は「箇」の略体である「个」、もしくは、「箇」のたけかんむりの一つを採ったものに由来すると考えられている。
両者は、異なった起源から生まれた、きわめて形の似通った二つの文字である。
【二つの文字の二つの用法】
片仮名の「ケ」は、「ke」の音を表す仮名として用いられる。
もう一方の「ヶ」は、ものを数える際に添えられ、「ko」「ka」と読まれる。
例)一ヶ、二ヶ所、五ヶ条
加えてこの「ヶ」は、連体助詞の「が」に代用され、「ga」と読まれることがある。
例)君ヶ代、我ヶ家、槍ヶ岳、霞ヶ関
【字形の区別】
筆記や印刷において、二つの文字は、使い分けられる場合もあれば、使い分けられない場合もある。
「ko」「ka」「ga」と読まれる文字は、印刷物においては小振りに作られ、縦組み中では右に、横組みでは下に配置される場合がある。
ただし、印刷物においても、片仮名の「ケ」と区別されていないと見える例も少なくない。
小振りに作られたものが使われるか否かは、表記の新旧には関わらない。
下線を付した箇所の説明が不十分であるとの御指摘を受けて、「むしとりあみ」に書き込んだ補足説明を、以下、コピーしておきます。
1) 拗音に用いる「や、ゆ、よ」、促音に用いる「つ」は、新仮名では小書きされる。
他の文字(他のかな、漢字、記号など)が、仮名表記の新旧で大きくなったり小さくなったりすることはない。
2) 「箇」、「个」に由来する「ヶ」は、「や、ゆ、よ」でも「つ」でも、そもそも仮名でもない。
3) だから、仮名表記の新旧で、「箇」、「个」に由来する「ヶ」が大きくなったり、小さくなったりすることはない。
4) 片仮名の「ケ」と、「箇」、「个」に由来する「ヶ」に関しては、両者を区別する立場と、区別しない立場の、双方がある。
そのために、本来「ヶ」が使われると思われる所に、「ヶ」と「ケ」の双方が現れる。
そうした両者の出現は、旧仮名においても、新仮名においても、ともに見られる。
手書きされた文字においては、二つの文字が使い分けられているか否かを判定することは、ほぼ不可能と思われる。
「言葉に関する問答集 総集編 ・文化庁」は、「数詞に続けて物を数えるときには、旧表記では「五ヶ所」「五ヶ条」のように小さく「ヶ」と書くことも行われた。また、固有名詞の場合にも「駒ヶ岳」「槍ヶ岳」「青ヶ岳」のように書かれる。」と、字形が大小で区別されるという立場をとっている。(ものを数える際の「ヶ」に対する同書の立場は、「かつては小さく書かれていたものが、その後、区別されずに片仮名の「ケ」に統一されたとするものではない。数詞に添える用法が、現代表記では行われなくなったとするものである。)
一方、「日本国語大辞典」は、「これらの「ケ」は、もともと「箇」の略体「个」から出たもので、かたかなとは起源を異にするが、字形としては区別はなくなっている。」という立場をとっている。(同辞典は、「箇」、「个」に由来するものが、小さく書かれたという点に言及していない。)
異なった立場からの両者の記述は合わせて、規範意識に基づいて大小を使い分ける立場がある一方で、一部には、区別しない用例もみられると言う現実を、表現していると思われる。
【文字コード上の扱い】
JIS X 0208 は、片仮名の「ケ」に、区点番号5-17を与えている。
この文字は、附属書4表12の「片仮名」に分類され、「KATAKANA LETTER KE」という名前が付けられている。
JIS X 0208 は加えて、小振りに作った「ヶ」に区点番号5-86を与えている。
この文字は、附属書4表12の「片仮名」に分類され、「KATAKANA LETTER SMALL KE」と名付けられている。
JIS X 0208 の最新版である「JIS X 0208:1997」には、区点番号5-86の文字が、「个」または「箇」から由来する符合であり、「ko」「ka」「ga」と読まれることがあることを示唆する手がかりは、与えられていない。
区点番号5-86の文字に対する、こうした「JIS X 0208」の位置づけは、小振りの「ヶ」が、「片仮名ではなく、…符号的に用いられてきたもの」とする、「言葉に関する問答集 総集編」の立場からすれば、不適当と評価されると思われる。
また、区点番号5-86の文字が、「符号的に用いられてきたもの」であるとは、断定しがたいという主張にも、成立の余地を与える可能性がある。
ただし、「JIS X 0208:1997」の改正作業の基本方針が、「第3次規格 JIS X 0208-1990 の6879文字に対して、文字の追加・削除・入替えなどの文字集合に対する変更は一切行わず、JIS X 0208-1990 のあいまいな規定を明確化し、より使いやすい規格とすることを目指し」(「7ビット及び8ビットの2バイト情報交換用符号化漢字集合 JIS X 0208:1997」375頁)たものである点には、留意する必要がある。
同規格の原案委員会委員長、芝野耕司氏は、自らが編著者となった「増補改訂JIS漢字字典」において、面区点番号1-5-86の小書き片仮名「ヶ」に「カ・コ」の読みを加え(846頁)、その意図を以下のように説明している。(横組み432頁)
これらは、他の漢字と全く異なる所に配置されていて検索しにくいため、この規格で表現できないと誤って判断される例が少なくない(例えば、JIS X 0212-1990“補助漢字”は、“〆”を16-17に改めて掲載している)。このため、検索を用意にするために、あえて音訓を設定することにした。
少なくとも芝野耕司氏は、5-86が「カ・コ」と読まれることのある文字であるこという立場をとっている。
規格には明示されていないが、JIS X 0208 の 5-86 は、「言葉に関する問答集 総集編」が言う、「片仮名ではなく、漢字の「个」(箇と同字)又は「箇」のタケカンムリの一つを採ったものが符号的に用いられてきたもの」と位置づけるのが妥当と思われる。
※ここで「規格には明示されていない」としているのは、誤りでした。規格票は「附属書4表12、附属書11(参考) 区点位置索引 3. 音・訓による索引」で 5-86 に「カ」という読みを与えています。(2003年3月28日)
【対処方針】
「ke」と読まれていると推測されるものは、片仮名と見て、区点番号5-17で入力するのが妥当であろう。
「ko」「ka」「ga」と読まれていると推測される場合は、「箇」、「个」に由来するものの用例と判断しうるであろう。
ただし、このケースの印刷物における扱いには、明らかに「小さく、右(もしくは下)に寄せて作ってある」ものと、明らかに「片仮名と同様の字形があててある」ものを両極端として、判定の難しいさまざまな中間的なパターンが見られる。
では、青空文庫においては、「ko」「ka」「ga」と読まれていると推測される文字は、どう入力するのが妥当だろうか。
以下に、想定されうる方針を挙げる。
1 底本の文字を仔細に検討し、大、小いずれが使われているかを判断して、大と判断したものは区点番号5-17で、小と判断したものは区点番号5-86で入力する。
判定がどうしても不可能である場合は、小(もしくは大)で入力し、「入力は小(もしくは大)で行ったが、底本がどちらを使用しているかは、判定できなかった。」旨を注記しておく。
大が使われていると判断した場合、もしくは暫定的に大で入力した場合には、起源に照らして、「小が本来の字形である。」ことを念頭においた、何らかの注記を施すという選択肢もあり得る。
(筆者が先にまとめた「面区点番号1-5-86の「ヶ」について」では、この形を提案した。)
2 「ko」「ka」「ga」と読まれていると推測されるものが現れた場合は、底本の字形の大小は判定せず、自動的に区点番号5-86で入力する。
その際、ファイル末には「「箇」、「个」に由来すると思われる「ヶ」は、区点番号5-86で入力した。」と注記しておく。
あるいは、「青空文庫は作業方針として、「ko」「ka」「ga」と読まれていると推測されるものについては、底本の字形の大小は判定せず、自動的に区点番号5-86で入力する。」という方針をどこかに掲げておき、個別のファイル中には注記しないという選択肢もあり得る。
3 「ケ」と見える文字は全て、区点番号5-17(片仮名の「ケ」で入力する。)
青空文庫は作業方針として、「ケ」と見える文字は全て、区点番号5-17で入力するとどこかに掲げておく。
【筆者の意見】
青空文庫は電子翻刻の基本方針を、以下のように定めている。
「●青空文庫の漢字の入力は、JIS X 0208に明示された185番までの包摂規準に加え、JIS X 0213で追加された186〜199番を受け入れた上で、底本に忠実に行います。」(青空工作員マニュアル「2入力-1」、■入力の実際、(1)使う文字、【包摂規準】 )
「漢字の入力」との限定はあるが、上記規定は明らかに、「JIS X 0208 の基盤にのって作業する」という立場を表明したものと思われる。
その JIS X 0208 は、区点番号5-17と5-86を区別している。
である以上、両者を区別するという原則は、青空文庫の電子化作業においても守るのが妥当だろうと思われる。
よって、上で想定した対処方針の3は、不適当と考える。
その上で、「大小の判定が困難なものが、数多く見られること」を踏まえ、多くの作業者が共有する作業方針としては、筆者は以下が適当ではないかと、現時点では考える。
「ko」「ka」「ga」と読まれていると推測されるものが現れた場合は、底本の字形の大小は判定せず、自動的に区点番号5-86で入力する。
この方針は、どこかに大きく掲げておき、個別のファイルには、この件に関する注記は行わない。
「底本に忠実」と言う立場をあくまで守り抜くことは、字形の衝突がかなり広範に生じた両者に関しては、現実的に不可能と判断したことが、上記方針をとりたいと考えた理由である。
なお、大小を区別するか否かは、表記の新旧には関わりを持たないことから、この作業方針は、新字新仮名、旧字旧仮名の双方に適用する。
※html版をローカルで、正規表現を用いて検索すれば、全ての既公開作品から、書き替えるべきパターンを抜き出すことは可能と思われる。
いつ、誰が、ファイルを修正するか(しうるか)という点は、検討課題として残るが。
【補遺】
・連体助詞「が」に宛てる用法の起源
「日本国語大辞典」は、連体助詞「が」に宛てる用法の起源に関連して、以下のように述べている。
「また、「君ケ代」、「越ケ谷」、「八ケ岳」のように連体助詞の「が」にあてることがある。これは前例(物を数える際の「箇」の代用。:引用者注)の「三ケ日(さんがにち)」等の「ケ」の転用である。」
・「六ヶ敷」「六ヶしい」
この用例では、「ヶ」を「ka」と読ませていると推測されるが、一見すると、「物を数える際の「箇」の代用、あるいは「連体助詞の「が」」のいずれにも当てはまらないように見える。
だが、以下の資料から判断すれば、これもまた「「箇」の代用」ではないかと推測される。
「日本国語大事典」第二版「むずかしい」の項の末、「表記」以下。
六借(下・文・伊・明・点・饅・黒・易・書)※[#「虫/(虫+虫)]・※
[#「りっしんべん+富](色)憤懣(名)難・六ヶ[#「ヶ」は明らかに小さく、右寄せに作ってある]敷(文)※[#「にんべん+(卉/貝)」]懣・※[#「貝+寸」](伊)密(黒)六箇敷(易)六敷(ヘ)
色づけは筆者。
「文」は「文明本節用集」、「易」は易林本節用集、「ヘ」は和英語林集成。
想像を逞しくすれば、「六箇敷」は「六箇、敷くのは困難である。」といったところに由来する表記か?
参考:
「言葉に関する問答集 総集編 ・文化庁」(平成8年11月8日2刷)
「日本国語大辞典」小学館、「け【け・ケ】」の項の〔付記〕
〔付記〕片仮名の「ケ」を、物を数える「一カ年・一コ」の「箇」に代用することがあり、近来は「一ケ・二ケ」等を、「イッケ・ニケ」等とよむようにもなった。
また、「君ケ代」「越ケ谷」「八ケ岳」のように連体助詞の「が」にあてることがある。これは前例の「三ケ日(さんがにち)」等の「ケ」の転用である。これらの「ケ」は、もともと「箇」の略体「个」から出たもので、かたかなとは起源を異にするが、字形としては区別はなくなっている。
※同項目では、小振りの「ヶ」は使われていないと見えるので、同書からの引用では全て、片仮名の「ケ」を用いた。
【付記】
「みずたまり」に提示したもの、同掲示板で御教示いただいたものは、以下に分類されると思われる。
・物を数える際
「一ヶ所」「二ヶ月」「一ヶ」「二ヶ」「六ヶ敷」「六ヶしい」
・物を数える際に由来して、連体助詞「が」の代用につながるもの
「万ヶ一」「百ヶ日」「三ヶ日」
・連体助詞「が」の代用
「駒ヶ岳」「槍ヶ岳」「霞ヶ関」
「〜ヶ原」「〜ヶ谷」「〜ヶ関」「〜ヶ島」「〜ヶ峰」「〜ヶ崎」「〜ヶ浦」「〜ヶ浜」のパターン。
「三月ヶ程」
「我ヶ国」「我ヶ家」
以上