お仕事で四国から飛んで帰っている間にGoogle様が「Google日本語入力」をリリースしていました(Google様のブログ参照)。
ATOK とか MS IME とかと同じ役割をする、かな漢字変換エンジン。Windows と Mac の両方揃って、どちらも無料です。
まだ現物は試していないのですが、上記のブログの説明や Twitter に流れている試した人の感想を読む限りでは、かなりすごい。破壊的にすごい。

Google が蓄積している Web 上のテキストの膨大なデータを辞書に使っていて、
Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます
(上記ブログの記事より)
とのこと。
Googleで誤変換をした文字を検索したときなどに「もしかして:××××」と、正しいと思われる文字を提示してくれる機能がありますけど、あれを常備したかな漢字変換みたいなもの。変換中というか文字の入力中に「もしかして、これ入力しようとしてます?」みたいな感じでどんどん候補を出してくれるような感じみたいです。
たぶん、みんなが使っていくうちに、変換候補の使用頻度とかの統計データをどんどんサーバーに取りためていって、生き物のように賢く育っていくんじゃないかという予感。
これは、本当にすごい。こういうことを考えて実装して世の中に提示してくれるエンジニアの力を心から尊敬します。

でもね……ちょっと気になることがある。


辞書を作るのに、Web の文字データを解析したっていうことなんだけど、ご存じの通り、かな漢字変換の辞書は、かなの読みと、それに対応する漢字表現のセットが必要。Web の文字は変換後の表現だから、その字に対応する読みデータをどこからか収集しないといけないはず。
どこから集めたのか考えてみたんですが、たぶん(たぶん、ですよ。あくまで私の憶測・邪推ね)、Google サジェストを提供する中で、ユーザーがかな漢字変換をしている途中の読みデータと、かな漢字変換を確定した後の漢字データを集めてきたのではないかと思います。
読みデータを蓄積しているという確証はないけれど、少なくとも Google サジェストを使っている間は変換前の読みデータを収集して使っているのは確実。確定前の読み入力中の段階で、どんどん先読みして候補を出してくれる、っていうのが Google サジェストの発表時からの売りですからね(当時の記事参照)。

ユーザーが「かな」をどういう文脈の時にどういう漢字に変換するかという膨大な統計データを使うということはすばらしいと思うのだけど、そこでユーザーが入力したかな文字列と変換後の漢字文字列のセットは、実はユーザーが使っているかな漢字変換機能の辞書が吐き出したものなんですね。つまり、ユーザーを介して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけですわ。

これって、どうなんだろう?

もちろん、ぶっこ抜いたセットだけじゃ何もできなくて、自社の膨大なコーパスと膨大で優秀な開発リソースをつぎ込んでかな漢字変換機能にしているから、誰も文句を言えないのかもしれないけれど。
辞書データをぶっこ抜かれたかな漢字変換の開発会社の中には、いや、よしんば、ぶっこ抜いていなかったとしても、このかな漢字変換の売上やライセンス料で一生懸命生きているような会社もあるわけで、できあがったモノをタダでばらまかれたりして市場を破壊されちゃうと、一気に路頭に迷う人たちが出てくる可能性も十分に考えられると思うのです。誰とは言わないけれど。

それが時代の流れで、それについて行けない会社が悪いのよ、という考えもあるとは思うけれど、「圧倒的な資本力と開発力で、ソフトウェアを無料でばらまいて競合をつぶし、市場を独占しようとするアンフェアな試み」って、昔は別の会社のことを悪く言うのに使っていた気がするんだけど、あの会社と、何が違うんだっけ? Google 様の evil じゃない純粋な人たちがやれば、技術社会の進歩を支える正義なのかな。
大きく育った無邪気な象がまわりの小動物を踏み殺しちゃうのは、やつが無邪気だからしょうがないのかな。やつは本当は無邪気じゃないのだ、とは言わないけれど。

とか、ちょっと考え込んでしまったのでした。答はまだありません。