- NHK生活情報ブログ:NHK「2012年03月15日 (木)Siriに負けない?音声認識・字幕放送(2)」
- 今井 亨「リアルタイム字幕放送のための音声認識」*1
音声処理をベースにし、人の手で適宜修正を施すようだ。携わる人の行動に着目すると、字幕が出来上がるまでにつぎのような手順を踏むということだろう。
- アナウンサーが発言する
- 校正担当者が校正する
音声処理の段階を含めるとこうなる。
- アナウンサーが発言する
- コンピューターが音声を認識して音に分解する
- コンピューターが音を単語に変換しながらことばの組み立て方を推測して、文章を生成する
- 校正担当者が校正する
昨日言及したスピードワープロを用いた字幕作成の処理は以下のようなものだと思う。
- アナウンサーが発言する
- 文字を入力する人(ステノキャプショナー)が音声を認識して文字に分解する
- その人がことばの組み立て方を理解して、かな漢字変換を行う
- 校正担当者が校正する
これらのことから分かるのは、NHKにおいては、従来人が担ってきた音声認識処理とかな漢字変換処理が、今やコンピューターの処理に大部分委ねられようとしていることである。最終的な校正の段階では人の判断が必要になるとはいえ、これは非常に画期的なことだろう。
NHKの新しい字幕放送処理システムがあらゆる番組の字幕作成に使われることはあるのだろうか。もしもそうならば、それはいつごろになるのだろうか。NHKのこの技術が十分に発展したときに、民生向けにどのような寄与がなされるのか。興味は尽きない。
*1:NHK技研 R&D No.131 2012年。なお、この号は「音声処理 特集号」とのことである。