いつも文賢をご利用いただき、誠にありがとうございます。
このたび、ディープ・ラーニングを使った「誤字脱字を指摘する機能」を搭載しました。
※以下、「校閲支援」画面にある「誤字脱字チェック」をオンにすることで機能します。
新しく追加された「誤字・脱字チェック」は、2017年12月12日のプレスリリースのとおり、ディープ・ラーニング技術を利用しております。
これまでと比べ、数値上では8.7倍を超える誤字脱字検出数となりました。
しかし、すべての誤字・脱字を完璧に検出するものにはなっておりません。
そのため、今後も誤字脱字チェックを含め、文賢の機能全般を強化するための研究を進めていきたいと考えております。
今回の誤字脱字検出プロジェクトに際して
今回のプロジェクトに際して、人工知能の研究者や実務の専門家など、個人法人問わず素晴らしいメンバーに恵まれました。
ただ、人工知能を使っての誤字脱字検出には前例がなかったため、学習モデルを作るところから試行錯誤の連続。
モデル作成を補完するための手段として、レーベンシュタイン距離を用いた誤字修正や、大規模コーパスを使用した助詞の誤用検知など、時間の許す限りあらゆる方法を試しました。
また、高速で学習させるためのハイスペックなアーキテクチャ搭載マシンの調達に加え、大量に学習させるための教師データの用意にも苦心しました。
そして開発を進めていくにつれ、誤字脱字チェックの精度は徐々に上がっていきましたが、ある所を境に逆に精度が下がるようになります。
そこには、「人間にしか判断ができないもの」の壁がありました。
人間にしか判断できないものとは「言葉遣いが生み出すコミュニケーション」
というのも、誤字脱字ではない「適切な言葉遣い」というのは、その言葉をなげかける相手との距離感を含め「ニュアンス」「機微」「行間を読む」といった曖昧なものから導かれます。
言葉のルールを固定すると、距離感の異なる相手に対する言葉はルールに沿えなくなり「間違った言葉」として認識されてしまう。
言葉を発するのが人であり、受け取るのも人であればそこにはコミュニケーションが発生し感情が生まれます。
文賢は「言葉を大切に扱う」思想の一環として、誤字脱字を人工知能で判断する研究開発を進めました。
ただ、人と人をつなぐコミュニケーションを考えた際に、感情を理解できない人工知能だけでは、「言葉遣い」を判断することは非常に難しいという結論に達しました。
そこで、この課題を解決するために、もうひとつ別のプロジェクトを立ち上げます。
別プロジェクトの詳細な内容については、明日、あらためて当ブログにて公開する予定ですので、なにとぞお待ち頂ければ幸いです。
ディープラーニングを使った「誤字脱字チェック機能」が利用するデータについて
文賢の「誤字脱字チェック機能」では、株式会社ウェブライダー・株式会社レッジの著作データならびに、下記データを教師データの一部として利用しています。
- livedoor ニュースコーパス (準拠ライセンス:CC BY-ND 2.1)
- 内閣府ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
- 文部科学省ホームページコンテンツ(準拠ライセンス:CC BY 4.0)
AI学習のご協力について
当プロジェクトAI学習の高速化にあたり、株式会社ネットワールドさまAIセンター内「NVIDIA Tesla P100 GPU+IBM POWERプロセッサー搭載ディープラーニング向けサーバー『S822LC for HPC (Minsky)クラウド検証環境』」を使用させていただきました。
“Minsky” IBM Power System S822LC for HPC
まだまだ至らない点は多くありますが、「すべての人のライティングに勇気と自信を与える」ツールとなれるよう、ユーザーさまのご意見を取り入れながら、日々向上に取り組んでまいりたいと思います。
今後とも文賢を何卒よろしくお願いいたします。