【 DeepMind発 】「人間の言葉」 を 学び、言葉で与えられた目標 を 達成する 深層強化学習モデル

  • 9
    いいね
  • 0
    コメント

( 原論文 )

( DeepMind社 公式ブログ )


DeepMind から、

・ 人間の言葉 を 学んで、
・ 英語で指示された目標 を 達成するために必要 となる(最善な)行動(系列)
・ を 探索して、実行する

深層強化学習エージェントモデル が、公開されました。

ここ最近、

・エージェント が 身の回りの環境 を どう認識し、
・エージェント は、ある状況 で なぜ、その行動 を 選択したのか、の 理由

を、

・ エージェントの頭の中 を 覗き込んで、人間 が 理解すること が できる
・「ブラック・ボックス でない 強化学習モデル」

が、

・ Deep symbolic neural reinforcement learning モデル

・ Vicarious社のSchema Network モデル

として、目立たないところ で、静かに web上に 論文 が 公開されていました。

(上記 2つのモデル に ついては、HirofumiYashimaのQiita拙記事 解説 を 参照ください)

今回、DeepMind から公開されたエージェント は、

・ 「ブラック・ボックスではない」レベル

を 超えて、

・ 達成すべき任務 ミッション を 人間 が エージェント に 英語 で 与える こと が できる
・ 人 と 言葉 で 意思疎通 を 図ること が できる エージェント

です。

エージェント は、人間の言葉を 自力で内発的に理解する 言語学習 を 積み重ねる こと で、理解できる言葉のボキャブラリー を 自力で増やしていきます。

これは、「記号の接地問題」 が 解決 されたこと を 意味しており、エージェント は、行動 と 結びついた 内発的な記号表現 として、人間の言葉 である 英語 の 短文 を 学習していきます。

まさに、論文の標題 に 掲げられている ”Grounded Language Learning in a Simulated 3D World” が 行われた 形 です。


( 学習したエージェントの動作画面 )

youtube1.PNG

( 与えた指示の言葉 )

green object next to the red object.

youtube2.PNG

( 与えた指示の言葉 )

all green object.

youtube3.PNG


( 第3者 による 解説ウェブページ )

これは迷路ゲームの中に報酬が複数ある。

a)報酬の取り方の順序を自然言語で与える。
b)実際にその順番で報酬を取る操作を行う。

上記を様々な表現で多数回行うと、除々に自然言語を理解し始め、自然言語を与えるだけでその指示に従うことができる。


( 概要 )

問題意識

自ら判断し、行動する人工知能(エージェント) が 登場しているいま、
人間が、人間の言葉で 指示を与えたとおりに動く人工知能エージェント を 生み出す必要性 が 増している。

We are increasingly surrounded by artificially intelligent technology that takes decisions and executes actions on our behalf.

This creates a pressing need for general means to communicate with, instruct and guide artificial agents, with human language the most compelling means for such communication.

技術的に挑戦したこと

そのような人工知能エージェント を 作るためには、与えられた言葉 を (内発的に)理解して(つまり、「記号の接地問題」を解決する)、
言葉 を 行動 に 変換 できる 能力 を 組み込むこと が 必要 で ある。

To achieve this in a scalable fashion, agents must be able to relate language to the world and to actions; that is, their understanding of language must be grounded and embodied.

どう挑戦したか

( 深層強化学習 と 教師なし学習 の組み合わせ による 学習 )

本論文では、
仮想的な3次元空間の中で、人間の言葉の指示どおり に 行動したときに、エージェント に 報酬 を 与えること で、

  • 「言葉による指示」を 「行動」 に 転写できる エージェント

を 生み出せたこと が 報告される。

Here we present an agent that learns to interpret language in a simulated 3D environment where it is rewarded for the successful execution of written instructions.

Trained via a combination of reinforcement and unsupervised learning, and beginning with minimal prior knowledge, the agent learns to relate linguistic symbols to emergent perceptual representations of its physical surroundings and to pertinent sequences of actions.

挑戦した結果

(深層強化)学習 が 進むと、
最初 に 与えられた「事前知識」(prior experience)の範囲 を はるかに超えて、
広い語彙の(言葉による)指示 を 理解する様子 が 示された。

The agent’s comprehension of language extends beyond its prior experience,
enabling it to apply familiar language to unfamiliar situations and to interpret entirely novel instructions.

「言葉の意味」 を より多く学習すればするほど、
新しい(指示)単語 を 理解していくスピード も、 より早くなる 現象 が 確認された。

Moreover, the speed with which this agent learns new words increases as its semantic knowledge grows.

このことは、学習がさらに進んでいくと、
あいまいな指示表現 を 受け取って、複雑な行動環境 の中で 具体的に(指示通りに)行動 すること が できる エージェント を 生み出せる可能性 を 示唆している。

This _facility for generalising and bootstrapping semantic knowledge* indicates the potential of the present approach for reconciling ambiguous natural language with the complexity of the physical world


( 提案モデル )

提案モデル.PNG


( 精度検証 )

比較対象モデル

-1. A3Cモデル
-2. A3C + RP + VRモデル
-3. A3C + RP + VR + LPモデル
-4. A3C + RP + VR + tAEモデル
-5. A3C + RP + VR + tAE + LPモデル

比較結果

experiments.PNG


( 関連 )

DeepMind社 からすでに論文 が 出ている UNRAEALモデル