マイクロソフトのAI研究者が、AIに人間のように複雑な作業を処理させるため、分割統治法を取り入れた機械学習方法を考案、この方法でAtari 2600のゲーム「Ms.Pac-Man」のハイスコア99万9990点を叩き出しました。
研究はマイクロソフトが今年買収したAI深層学習関連のスタートアップMaluubaのチームによるもので、AIにとって攻略が最も難しいとされるMs. Pac-Manでハイスコアを出すことを目標としました。
Ms.Pac-Manは米国でAtari 2600向けに発売されたナムコ公認のパックマン・クローン。このゲームを選んだ理由は、操作こそ単純ながら画面に配置されたエサやパワーエサ、モンスターの動きなどを総合的に判断しなければならない複雑さを備えているためとのこと。
効率的にハイスコアを達成するために、チームはゲームプレイ中の思考パターンごと、たとえばモンスターから逃げることだけを考える役、パワーエサを取ることに集中する役などと言った具合にゲーム中の作業を小分けし、それぞれの役割に個別にAIエージェントを割り当てました。
チームはこの方法をハイブリッド報酬アーキテクチャーと名付け、細かい作業ごとに150ものAIエージェントを作り、それらを個別に鍛え上げました。ただ、これだけではそれぞれ偏った能力を備えたAIエージェントができあがるばかりで、とてもハイスコアを狙うことはできません。そこで新たにエージェントを束ねる役割となる上位のAIエージェントを作成しました。要するに会社組織で言うプロジェクトリーダー(または係長や課長)の役まわりを担わせるわけです。
上位エージェントは個別のエージェントからの入力を受け付けては吟味し、最終的なゲームの操作を決定します。ただし、単純に各エージェントの主張を聞くだけでなく、その主張の強度も考慮するように仕掛けました。たとえば大半のエージェントが右にあるパワーエサを取りに行くよう主張する状況でも、3つのエージェントが右へ行くとモンスターが来るため左へ避けるよう"強く"進言した場合、上位エージェントはゲームオーバーになるリスクを避けて左へ行く選択をするようにしました。
チームは、各エージェントがそれぞれの得意分野で自分本位の主張をするほうがより上手にMs.Pac-Manを操作することができたと説明します。またAIの強化においてこの分割統治的アプローチを取ることで、将来的にはたとえば営業チームがたくさんの顧客の中でどこが一番セールスを受け入れやすいかを把握したり、音声認識の精度を向上させたりするのに応用できるとのこと。
これまではAIを単独で鍛える方法が主役でしたが、今後はAIもいかに組織力を構築するかが開発のポイントとなっていくのかもしれません。となると、今後は人間の組織のように"有能な上司"がいなければ、たちどころに組織全体のパフォーマンスが落ちたりする現象も起こりえるのかもしれません。
[Image : Denver Post via Getty Images]