音声とテキストのリアルタイム連携に成功。
バリアフリー放送環境を実現し、テレビ放送の新しい視聴スタイル
を生み出した「全自動リアルタイム字幕制作システム」

更新日：2008年3月24日
注目キーワード：字幕、放送、通信、映像、音声、リアルタイム

2008年1月、NTTコミュニケーションズは、「全自動リアルタイム字幕制作システム」の商用化サービスを開始した。字幕付きの放送は、難聴者、高齢者などにテレビ番組を楽しむ環境を提供するだけでなく、音を出せない電車内などでのワンセグ視聴を支援するなど、活用の幅は広い。
全自動リアルタイム字幕制作システムは、放送局における生放送番組に対する字幕付与の作業を劇的に省力化する。さらに、一般消費者の間にテレビ番組の新しい視聴スタイルを生み出し、映像・音声とテキストデータとのより密接な関係づくりをするきっかけともなる技術である。

Chapter1．「全自動リアルタイム字幕制作システム」で何ができるのか？

現在、各放送局では番組への字幕付与の取り組みを進めています。映像にあらかじめ字幕をつけておくことのできない生放送番組への字幕付与をどのような方法で実現するのか、デモンストレーションを交えて説明します。

開発の経緯と背景について
（WMV 形式/2分27秒/252Kbps）
- テキスト版はこちら
全自動リアルタイム字幕制作システムデモンストレーション
（WMV 形式/5分16秒/249Kbps）
- テキスト版はこちら

ページトップへ

Chapter2．開発の背景　生放送への字幕付けは放送局の取り組むべき課題

政府方針「2017年までに『生放送を含む全番組に字幕付与』」
日本には、聴覚障害や加齢による難聴者が、人口の約5%に相当する600万人ほどいるといわれている。テレビ放送の音声を聞き取ることが困難な人でも、字幕さえあれば、みんなと一緒にテレビ放送を楽しむことができ、大事なニュースのポイントを聞き間違えたりする心配もない。つまり、すべての放送番組に字幕をつけて、バリアフリー放送環境を実現することは、放送局の社会的責任（CSR）ということができる。

さらに総務省は、2017年までに、生放送を含むすべての番組に字幕をつけることを目指す指針を制定した^※1。

実は、事前収録番組にはすでに、NHKは100％、民放でも78％も字幕がついている。一方，放送番組のほぼ半分を占める生放送への字幕付与は、NHK43％、民放33％という状況だ。総務省が指針を出したことで、生放送にも字幕を付与することが、コンプライアンス（法令順守）の観点からも必須となったのだ。

事前収録番組だけでなく、ニュース等の生放送番組にも字幕付きの放送が求められている。

字幕というのは、一般の視聴者にとっても便利な存在である。地名や数字を文字で正確に把握できる。また、移動中の電車内で見るワンセグ、トレーニングジムやスポーツバーのバックグラウンド映像、待合室のサービス映像など、音声を出せない状態でもテレビ番組を楽しめる。

各放送局は、バリアフリー放送環境を実現する社会的責任（CSR）、コンプライアンス（法令遵守）、視聴者満足追求という3つのニーズにより、生放送にも字幕を付与できる体制づくりが必要となっているのである。

従来の2つの方式のメリットとデメリット
NTTコミュニケーションズは、放送局のテレビ番組管理システムなどを手がけてきた経緯から、音声認識やダイジェスト生成等のメディア変換技術について高度なノウハウを持っている。今回のシステムでは、NTTサイバースペース研究所で研究した音声認識エンジンを、放送局のニーズに合った形で実用化したのである。字幕制作システムについても、この音声認識技術をベースに、さまざまな取り組みを行ってきた。

そのひとつが、リスピーク音声認識方式だ。

この方式では、放送のアナウンサーとは別に、音声認識に適した話し方のできるリスピーカーを用意する。リスピーカーは、生放送中のアナウンサーの声をモニターで聞き、即座に復唱する。すると、高い精度で音声認識が行われ、字幕用のテキストデータを自動生成できるのである。リスピーク音声認識方式は、原稿に記載されていないアドリブの発言や、現場中継で聞き取りにくいときでも、リスピーカーが判断して復唱するため、的確に字幕表示できるというメリットがある。しかし、リスピーカーの音声や、原稿中の固有名詞などを放送前に登録しておく準備作業に2時間程度かかる。また、リスピーカーであっても音声認識率は97％程度であるため、残りの3％を人手でリアルタイムに訂正しなければならない。したがって、放送中に2～5名の人員が字幕表示のためだけに張り付いていなければならないのである。

もうひとつが、字幕テキスト手動送出方式である。

これは、放送用原稿を使って人手で字幕データを作っておき、放送の進み具合をモニターしながら、人間がボタンを押して順に表示させていく方式だ。

放送用原稿は、アナウンサー向けの注釈が含まれていたり、読みやすいように細かく改行されていたりと、特殊な構成になっている。したがって、放送用原稿から不要な情報を削除し、字幕表示に適した原稿に整形しなければならないのである。

字幕テキスト手動送出方式では、放送前の準備時間が30分に短縮され、放送中に張り付いていなければならない人間も1名で済む。それでも、予算と人員に限りのある地域放送局では、早朝から深夜までのすべての生放送に、1名を余分に用意するのは困難だという意見が多く寄せられた。

そこで開発したのが、全自動リアルタイム字幕制作システムである。

生放送番組における従来の字幕制作システムの課題

生放送番組における従来の字幕制作システムの課題

※1　総務省　平成19年10月30日公表　「視聴覚障害者向け放送普及行政の指針」概要

ページトップへ

Chapter3．地域放送局待望！の全自動リアルタイム字幕制作システム

事前準備作業10秒、運用人員ゼロを実現
全自動リアルタイム字幕制作システムは、3つのステップで、放送中の運用人員「ゼロ」を達成しつつ、リアルタイムな字幕表示を行う。第1は、放送用原稿からの字幕テキストへの変換だ。字幕テキスト自動変換機能を開発したことで、ボタンをワンクリックするだけで自動的に実行できるようになった。
第2に、放送中のアナウンサー自身の声を音声認識し、テキスト変換する。このフェーズで機能するのが、NTTサイバースペース研究所が開発した音声認識技術（VoiceRex）だ。この技術は、これまでの研究開発成果に放送局との実験結果を反映させることで、認識率を飛躍的に向上させた。アナウンサーが抑揚をつけて話しても、90％台の認識を維持する。
第3に、アナウンサーの発話の音声認識結果と、事前に自動生成した字幕テキストを照合したうえで、アナウンサーの発話のタイミングにあわせて字幕をリアルタイムに自動送出する。この字幕テキスト自動送出機能は、特許申請中の新規技術が使われている。この3つのステップの各機能を連携して機能させることで、放送前の事前準備は字幕テキストへの自動変換にかかる約10秒だけ、放送中に張り付いていなければならない人間は「ゼロ」という、放送局待望のシステムを作り上げることができた。
字幕表示の遅延がほとんどないのも大きな特長だ。
リスピーク音声認識方式では、リスピーカーが復唱し、手作業で細かいところを訂正して送出するため、アナウンサーの発話と字幕表示の間に5～10秒の遅延が生じる。全自動リアルタイム字幕制作システムであれば、遅延1～2秒、ほぼリアルタイムで、字幕が表示されるのである。

「全自動リアルタイム字幕制作システム」および従来方式のシステム概要

従来方式		全自動リアルタイム字幕制作システム
リスピーク音声認識方式	字幕テキスト手動送出方式
クリックで拡大	クリックで拡大	クリックで拡大

音声認識技術の活用方法の「転換」
テレビ番組への字幕付与は、米国やオーストラリアではあたりまえのサービスとなっている。特に米国では、放送中に速記入力者が1名張り付くのがルール化しており、字幕表示率はほぼ100％である。しかし日本語は、聞こえた音声をそのまま文字にするのではなく、漢字変換の作業が必要となるため、英語圏でのやり方をそのまま取り入れることはできない。
こうした背景の中で、全自動リアルタイム字幕制作システムを実現したのは、「発想の転換」である。
音声認識は、認識率100％に向けて技術革新を重ねてきたわけだが、音声認識結果をそのまま使うことを目的とせず、認識されたデータを字幕送出のタイミングを判断するためのツールに用いた点がポイントである。字幕テキストを照合する材料として用いるのであれば、認識率が80％でも十分であり、リスピーカーも要らない。放送局の事情を熟知し、ノウハウを積んできたNTTコミュニケーションズならではの「目のつけどころ」ということになる。

地域放送局の現場で共同実験を重ねたうえでの商用化
2008年1月の商用化は、地域放送局の現場で共同実験を重ねたうえでのサービス開始であることも重要なポイントだ。
NTTコミュニケーションズは、北海道放送、KTS鹿児島テレビをはじめとする複数の地域放送局と共同実験を重ねてきた。実験時に、放送局の現場担当者が、「これは良い。いますぐに使い始めたい」と声を上げたほどに評価が高かった。また、制作した字幕が放送品質であるという確証を得たうえで、今回の商用化に踏み切ったのである。

全自動リアルタイム字幕制作システムのメリット・デメリット

全自動リアルタイム字幕制作システムのメリット・デメリット

ページトップへ

Chapter4．今後の取り組みと大きな可能性

現在の全自動リアルタイム字幕制作システムが対応している番組は、1人のアナウンサーが話す5分程度のニュースであるが、今後は対応可能時間を延長し、地域放送局が夕方放送している、より長時間の情報番組・ニュース番組にも対応していく計画だ。自動リアルタイム字幕制作システムは近い将来、放送の全体フローに組み込まれていくと予想される。
NTTコミュニケーションズは、より多くの放送局が利用しやすいように、ASP事業としての提供も検討している。つまり、字幕テキスト自動変換サーバ、音声認識サーバ、字幕テキスト自動送出サーバをNTTコミュニケーションズに設置し、放送局からはネットワーク経由で放送用原稿の事前送付とアナウンサーの音声リアルタイム送信を行うだけで、字幕付き放送ができるようになるサービス環境を目指しているのである。
さらに、音声認識技術は、字幕制作の分野だけではなく、コールセンター、テレビ会議、議事録作成支援、ゲーム機や携帯電話をはじめとする情報端末の音声制御や音声検索などにも応用することが可能である。
字幕データの自動生成技術も、バリアフリー社会を実現するユニバーサルサービスにとどまらず、映像、音声、音楽を文字情報とリンクさせる場面で活用の範囲が広い。自動的に付与されている字幕データをキーワードにして、映像を気軽に検索・編集できるようになれば、予備校や英会話スクールなどの新しい視聴サービスも生まれるかもしれない。
NTTコミュニケーションズは、現場で蓄積してきた技術とノウハウをさらに進化させて、新しいライフスタイルの創出にも役立てていきたいと考えている。

ページトップへ