- Japan Edition
- ZDNet is available in the following editions:
- Austrailia
- Asia
- China
- France
- Germany
- United Kingdom
- USA
- Blog
- ホワイトペーパー
- 企業情報センター
- 話題の1本
- builder by ZDNet Japan
- CNET Japan
- TechRepublic Japan
IBMが、最新の音声認識テストでMicrosoftを僅差で抑え、単語誤り率5.5%を記録している。
この誤り率は、人間が会話中に聞き落とす20単語につき1単語というおおよその率に匹敵する。Microsoftは2016年10月、IBMが2016年に発表していた最高記録である6.9%を破る5.9%という記録を出したが、今回IBMが再び上回った格好だ。
だがIBMは、会話を理解するという点で機械が人間を上回るのはもう少し先になる可能性があると強調している。Microsoftは単語誤り率が5.9%を記録した際に、「ヒューマンパリティ(人間と同程度であること)」に到達したとしていたが、最新の調査によりMicrosoftを祝福するのはまだ早いことがわかったとIBMは述べている。
「われわれはまだシャンパンを開けて祝う段階にはない」とIBMの首席リサーチサイエンティストGeorge Saon氏は記している。Saon氏によると、今回のマイルストーンを達成する過程で、実際にはヒューマンパリティはもっと低く、誰も到達していない5.1%であると判断したという。
単語誤り率5.5%に到達するために、IBMは長期短期記憶(LSTM)とWaveNet言語モデルを組み合わせた。見知らぬ人同士のフォーマルな電話の会話を含む「Switchboard」コーパスを使ってこれらのモデルをテストしたという。さらにIBMは、よりカジュアルな家族間の会話を含む「CallHome」でもテストした。会話の話題はさまざまで事前の設定はない。このテストでのIBMシステムの単語誤り率は10.3%だった。人間の場合は6.8%だ。
IBMが公開している研究論文によると、Switchboardテストにはいくつかの問題があるという。「40のテストスピーカーのうち36人がトレーニングデータに登場している。8種類もの会話に登場しているものもあった。われわれの音響モデルは、トレーニング中に出てきた音声パターンを記憶するのに長けている」。
CallHomeのテストで生じた大きな差異は、その音響および言語モデルがテストスピーカーのデータを経験していなかったことによるものだ。
IBMは、同社の音声認識における成果を使って、「Watson Speech to Text」サービスに新しい機能を加えていると述べている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
デジタルを駆使する破壊的なプレーヤーの出現、既存のビジネスモデルで競争力を持つ
プレイヤーはデジタル活用による変革が迫られている。これを読めばデジタル変革の全体像がわかる!
日本IBMが主催する最大の国内総合イベント。テクノロジー・リーダーの疑問を紐解く「企業IT、セキュリティー、モバイル、データ解析などの進化を探る」詳細はこちらから!
2017年の取り組みで最も重要なキーワードを1つ選ぶと何ですか?
ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。