G検定 チートシート(カンペ)2022年度版
目次[非表示]
人工知能(AI)とは
人工知能の定義
「人工知能(Artificial
Intelligence)」:1956年にアメリカで開催されたダートマス会議、ジョン・マッカーシーが利用。
しかし、定義はない。
そもそも「知性」や「知能」自体の定義がない。「人間と同じ知的な処理能力」の解釈が研究者によって異なる。
『エージェントアプローチ人工知能』:周囲の状況(入力)によって行動(出力)を変えるエージェント(プログラム)として人工知能を捉える。人工知能をレベル別に分類したものが以下の4つ。
■ レベル1:シンプルな制御プログラム
エアコンの温度調整、洗濯機の水量調整など、あらかじめ単純な振る舞いが決まっている。制御工学、システム工学分野で長年培われた技術。
■ レベル2:古典的な人工知能
掃除ロボットや診断プログラムなど、探索・推論、知識データを利用し、状況に応じて複雑な振る舞いをする。
■ レベル3:機械学習を取り入れた人工知能
検索エンジンや交通渋滞予測など、大量のサンプルデータをもとに入力と出力の関係を学習したもの。パターン認識という研究をベースに発展し、ビックデータでより進化。
■ レベル4:ディープラーニングを取り入れた人工知能
特徴量と呼ばれる変数を、自動的に学習するサービスや製品。画像認識、音声認識、自動翻訳など。
人工知能で実現した原理がわかってしまうと、「それは単純な自動化であって知能とは関係ない」と結論付ける心理的効果。
ロボットの脳に当たる部分が人工知能。
脳以外の部分を研究対象としているロボットの研究者は人工知能の研究者ではない。また、人工知能の研究は脳だけを対象としているわけではない。
人工知能研究の歴史
エニアック(ENIAC):1946年、アメリカのペンシルバニア大学で発明した世界初の汎用電子式コンピュータ。
アメリカで開催されたダートマス会議:
参加者:マーヴィン・ミンスキー、ジョン・マッカーシー、アレン・ニューウェル、ハーバート・サイモン、クロード・シャノン。
知的に行動したり、思考したりするコンピュータ・プログラムの実現可能性について議論。
ニューウェルとサイモン:世界初の人工知能プログラムといわれるロジック・セオリストをデモンストレーションしコンピュータを用いて数学の定理を自動的に証明することが実現可能であることを示す。
■ 第1次AIブーム(推論・探索の時代:1950年代後半~1960年代)
トイ・プロブレム(おもちゃの問題):コンピュータによる「推論」や「探索」 の研究が進み、特定の問題に対して解を提示できるようになった。迷路や数学の定理の証明のような簡単な問題は解けても、現実の問題は解けないことが明らかになり、1970年代には人工知能研究は冬の時代。
■ 第2次AIブーム(知識の時代:1980年代)
エキスパートシステム:データベースに大量の専門知識を溜め込んだ実用的なシステム。
日本では、政府によって「第五世代コンピュータ」と名付けられた大型プロジェクトが推進。
しかし、知識を蓄積・管理することの大変さが明らかになってくると、1995年ごろからAIは冬の時代。
■ 第3次AIブーム(機械学習・特徴表現学習の時代:2010年~)
ディープラーニング(深層学習):ビッグデータを用いることで、人工知能が自ら知識を獲得する機械学習が実用化。また、特徴量を人工知能が自ら習得するディープラーニング(深層学習)が登場。
3つの時代は互いに重なり合っている。
人口知能をめぐる動向
探索・推論
場合分け。場合分けを続けていけば、いつか目的の条件に合致するという考え方。コンピュータの得意とする単純作業
■ 幅優先探索
出発点に近いノード(探索木の各要素)順に検索。出発点から遠いノードほど検索は後になる。最短距離でゴールにたどり着く解を見つけることができる。しかし探索の途中で立ち寄ったノードをすべて記憶しておく必要があり複雑な場合メモリ不足で処理失敗の恐れ。
■ 深さ優先探索
あるノードから行けるところまで行って、行き止まりになったら1つ手前のノードに戻って探索を行うということを繰り返す。1つ手前のノードに戻って探索するためメモリはあまり要らない。しかしそれが最短距離でゴールにたどり着く解であるとは限らない。
探索木を使ってハノイの塔というパズルを解くことができる。
ロボットの行動計画は探索で作成可能。
探索空間:プランニングと呼ばれる技術。ロボット、部屋、ゴミを含む環境を1つの状態と考え、ある状態から別の状態に遷移を表す矢印をロボットの行動とみなして構成した空間。
あらゆる状態<前提条件>について、<行動>と<結果>を記述しておけば、目標とする状態に至る行動計画を立てることができるわけです。
プランニングの研究では、前提条件、行動、結果のう3つの組み合わせで記述するSTRIPS(Stanford Research InstituteProblem Solver)がある。
積み木の世界 SHRDLU:このプランニングを実現する研究。は1968年から1970年にかけてテリー・ウィノグラードによって開発されたシステム。英語による指示を受け付け、コンピュータ画面に描かれる「積み木の世界」に存在する様々な物体(ブロック、四角錐、立方体など)を動かすことができた。
2016年3月9日、韓国のプロ棋士に、DeepMind社が開発した人工知能の囲碁プログラムAlphaGo(アルファ碁)が4勝1敗。
問題点:組み合わせの数が天文学的な数字になってしまうため、事実上すべてを探索しきれない。
■ コスト
ヒューリスティックな知識:効率よく探索するためにコストの概念。
「探索を効率化するのに有効な」という意味で、探索に利用する経験的な知識。
コンピュータが効率よく最良の手を探索できるように、状態が自分にとって有利か不利かを示すスコア(コスト)を情報として保持。ゲーム盤の状態のスコア(コスト)の計算方法を事前に決めておけばよく、駒の数や位置関係を元に計算する。
■ Mini-Max法
自分が番にスコアが最大になるように、相手の番に指す時にはスコアが最小になるように戦略を立てる。
Mini-Max法による探索をできるだけ減らす手法をαβ法。すでに出現したスコアよりも大きいノードが現れた時点でその先につながるノードの探索をやめるαカット。
ゲームがある局面まで進んだら、あらかじめ決められた方法でゲームの局面のスコアを評価するという方法を完全に放棄する。代わりに、コンピュータが2人の仮想的なプレーヤーを演じて、完全にランダムに手を指し続ける方法でゲームをシミュレーションし終局させてしまう。プレイアウトと呼ぶ。ある局面からプレイアウトを複数回実行すると、どの方法が一番勝率が高いか計算でき、ゲームのスコアを評価できる。
人間の思考方法とは違ってブルートフォース(力任せ)で押し切る方法のため、探索しなければならない組み合わせの数が増えると、立ち行かなくなるためしばらくは囲碁でプロに勝てなかった。
ディープラーニングの技術を使って人間の思考方法をコンピュータで実現し、人間のプロ棋士に勝利した。
知識表現
人工無脳:チャットボット、おしゃべりボットなどと呼ばれているコンピュータプログラム。特定のルール・手順に沿って会話を機械的に処理するだけで、実際は会話の内容を理解していない。
■ イライザ(ELIZA)
人工無脳の元祖はイライザ(ELIZA)と呼ばれるコンピュータプログラムで、1964年から1966年にかけてジョセフ・ワイゼンバウムによって開発。相手の発言をあらかじめ用意されたパターンと比較し、パターンに合致した発言があると、そのパターンに応じた発言を返答する。
イライザ効果:イライザは自然な対話を、人間を相手に行うことができ、あたかも本物の人間と対話しているような錯覚に。
単純なルールに基づき機械的に生成された言葉でも、そこに知性があると感じてしまう人間の反応に驚いたジョセフ・ワイゼンバウムは、コンピュータに意思決定を任せることの危険性を警告。
心理療法の分野にも影響を与え、オンラインセラピストのシステムにも発展。
特定専門分野の知識を取込み、その分野のエキスパート(専門家)のように振舞うプログラム。
■ マイシン(MYCIN)
初期のエキスパートシステム。1970年代にスタンフォード大学で開発。
血液中のバクテリアの診断支援をするルールベースのプログラム。
69%の確率で正しい処方をし、感染症の専門医が正しい処方をする確率80%よりも低い水準だが、専門医ではない医師よりはよい結果だった。
■ DENDRAL
スタンフォード大学で実用指向のAIを推進してきたエドワード・ファイゲンバウムが1960年代に未知の有機化合物を特定するDENDRALというエキスパートシステム開発し「知識工学」を提唱。
知識ベースを構築するためには、専門家、ドキュメント、事例などから知識を獲得する必要が。ドキュメントや事例から知識を獲得するためには、自然言語処理や機械学習という技術を利用するが、最大の知識源である人間の専門家からの知識獲得は困難。多くは経験的で暗黙的であるため、それを自発的に述べてもらうことはほとんど不可能であり、うまくヒアリングで取出さなければならなかった。このため、知的なインタビューシステムなどの研究も。
意味ネットワーク(semantic network)は、もともと認知心理学における長期記憶の構造モデルとして考案。人工知能においても重要な知識表現の方法の1つ。
■ Cycプロジェクト
すべての一般常識をコンピュータに取り込もうというCycプロジェクト(ダグラス・レナート)。1984年から今も続いている。
■ オントロジー
本来は哲学用語で存在論(存在に関する体系的理論)という意味。
人工知能の用語としては、トム・グルーパーによる「概念化の明示的な仕様」という定義が広く受入れられている。
知識を記述する時に用いる「言葉(語彙)」や「その意味」、それらの関係性を、共有できるように、明確な約束事(仕様)として定義。
「is-a」の関係(「である」の関係):継承関係。「動物は生物である」、「哺乳類は動物である」ということを表現。矢印が向いている側が上位概念で、矢印の始点が下位概念。下位概念は例外を指定しない限り、上位概念の属性をすべて引継ぐ。
「part-of」 の関係(「一部である」の関係):属性を表す。「目は頭部の一部である」、「肉球は足の一部である」
■ ヘビーウェイトオントロジー
構成要素や意味的関係の正当性について哲学的な考察が必要になるため、どうしても人間が関わることになる傾向。
■ ライトウェイトオントロジー
完全に正しいものでなくても使えるものであればいいという考えから、その構成要素の分類関係の正当性については深い考察は行わない傾向。
こうしたオントロジーの研究は、セマンティックWeb(Webサイトが持つ意味をコンピュータに理解させ、コンピュータ同士で処理を行わせるための技術)や、LOD(Linked Open Data:コンピュータ処理に適したデータを公開・共有するための技術)などの研究として展開。
IBMが開発、ワトソン(Watson):2011年にアメリカのクイズ番組ジョパディーに出演し、人間チャンピオンと対戦して勝利。Question-Answering(質問応答)という研究分野の成果で、ウィキペディアの情報をもとにライトウェイト・オントロジーを生成して、解答。
日本:東大入試合格を目指す人工知能、「東ロボくん」というプロジェクトが2011年にスタート、2016年まで続けられました。2016年6月の進研模試では偏差値57.8をマーク、ほとんどの私立大学に合格できるレベルに達しました。しかし、「東ロボくん」は質問の意味を理解しているわけではないので、読解力に問題があり、何らかの技術的なブレイクスルーがない限り、東大合格は不可能という理由から2016年に開発が凍結。
機械学習・深層学習
キーワード
ビッグデータ、レコメンデーションエンジン、スパムフィルター、統計的自然言語処理、コーパス、人間の神経回路、単純パーセプトロン、誤差逆伝播法、オートエンコーダ、ILSVRC、特徴量、次元の呪い、機械学習の定義、パターン認識、画像認識、特徴抽出、一般物体認識、OCR
機械学習:人工知能のプログラム自身が学習する仕組み。
コンピュータは与えられたサンプルデータを通してデータに潜むパターンを学習。
ユーザーの好みを推測するレコメンデーションエンジンや迷惑メールを検出するスパムフィルターなども、膨大なサンプルデータを利用できるようになった機械学習によって実用化されたアプリケーション。
統計的自然言語処理を使った翻訳では、従来のように文法構造や意味構造を分析して単語単位で訳を割り当てるのではなく、複数の単語をひとまとまりにした単位(句または文単位)で用意された膨大な量の対訳データをもとに、最も正解である確率が高い訳を選択。
ニューラルネットワークは機械学習の1、人間の神経回路を真似することで学習を実現する。
ニューラルネットワークの元祖:米国の心理学者フランク・ローゼンブラットが1958年に提案した単純パーセプトロンというニューラルネットワーク
ニューラルネットワークを多層にしたものがディープラーニング(深層学習)
パーセプトロンの限界:多層化することでディープラーニングは簡単に実現できる
→人工知能のマービン・ミンスキー:特定の条件下の単純パーセプトロンでは、直線で分離できるような単純な問題しか解けないと指摘。
→ニューラルネットワークを多層にして、誤差逆伝播法(バックプロパゲーション)を用いて学習すれば克服
→ただし、多層にしても学習精度が上がらないという問題も:入力したものと同じものを出力するように学習する自己符号化器(オートエンコーダ)の研究や、層の間でどのように情報を伝達するかを調整する活性化関数の工夫などを足場にして、4層、5層と層を深くしても学習することが可能に。
ILSVRC:画像に写っているものが何なのかをコンピュータが推測する課題が与えられ、正解率を競い合う。コンピュータは1000万枚の画像データを使って学習し、その学習成果をテストするために用意された15万枚の画像を使って正解率を測定する。
2012年、画像認識の精度を競い合う競技会ILSVRC(ImageNet Large Scale Visual Recognition Challenge)でトロント大学のジェフリー・ヒントンが率いるSuperVisionが勝利。
ジェフリー・ヒントンが中心となって開発した新しい機械学習の方法が「深層学習(ディープラーニング)」(開発されたニューラルネットワークのモデルはAlexNet)。
チャンピオンのエラー率: 2010年で28%、2011年で26%、2012年は15.3%で優勝
2012年以降、ILSVRCのチャンピオンはすべてディープラーニングを利用。2015年に人間の画像認識エラーである4%を抜いた。
人工知能分野の問題
キーワード
ローブナーコンテスト、中国語の部屋、機械翻訳、ルールベース機械翻 訳、統計学的機械翻訳、特徴表現学習
人工知能分野の問題
上述済。
フレーム問題:「今しようとしていることに関係のあることがらだけを選び出すことが、実は非常に難しい」ことを指し、1969年にジョン・マッカーシーとパトリック・ヘイズが提唱した人工知能における重要な問題
イギリスの数学者アラン・チューリングが提唱:別の場所にいる人間がコンピュータと会話をし、相手がコンピュータだと見抜けなければコンピュータには知能があるとするもの。
チューリングテストは、具体的なソフトウェア開発の目標にもなっている。イライザ(ELIZA)では、精神科セラピストの役割を演じるプログラムで、本物のセラピストと信じてしまう人も現れた。1991年以降、チューリングテストに合格する会話ソフトウェアを目指すローブナーコンテストを毎年開催。
・強いAI:適切にプログラムされたコンピュータは人間が心を持つのと同じ意味で心を持つ。
・弱いAI:コンピュータは人間の心を持つ必要はなく、有用な道具であればよい。
ジョン・サールは、人の思考を表面的に模倣するような「弱いAI」は実現可能でも、意識を持ち意味を理解するような「強いAI」は実現不可能だと主張。
「中国語の部屋」という思考実験を実施
1990年に認知科学者のスティーブン・ハルナッド:記号(シンボル)とその対象がいかにして結び付くかという問題。
人間の場合は、「シマ(Stripe)」の意味も「ウマ(Horse)」の意味もよく分かっているので、本物のシマウマ(Zebra)を初めて見たとしても、「あれが話に聞いていたシマウマかもしれない」とすぐに認識可能。
しかし、コンピュータは「記号(文字)」の意味が分かっていないので、記号が意味するものと結び付けることができない。
知能が成立するためには身体が不可欠であるという考え。
「外界と相互作用できる身体がないと、概念はとらえきれない」というのが、身体性というアプローチの考え。
機械翻訳が難しい理由は、コンピュータが「意味」を理解してないから。
2016年11月にGoogleが発表したGoogle翻訳ではニューラル機械翻訳が利用されており、機械翻訳の品質が格段に向上した。ディープラーニングの利用で知識獲得のボトルネックを乗り越え、さらなる性能の向上が期待。
特徴量:注目すべきデータの特徴を量的に表したもの。
特徴表現学習:特徴量を機械学習自身に発見させるアプローチ。
ディープラーニングは、与えられたデータの特徴量を階層化し、それらを組み合わせることで問題を解く。
シンギュラリティー(技術的特異点):人工知能が十分に賢くなり、自分自身よりも賢い人工知能を作るようになった瞬間、無限に知能の高い存在を作るようになり、人間の想像力が及ばない超越的な知性が誕生するという仮説
こうした脅威に対し、Googleは、イギリスのディープマインド・テクノロジーズ社を買収する際に、社内に人工知能に関する倫理委員会を作った。日本でも人工知能学会において、2014年に倫理委員会が設置。
機械学習の具体的手法
教師あり学習
キーワード
分類問題、回帰問題、半教師あり学習、ラッソ回帰、リッジ回帰、決定木、アンサンブル学習、バギング、勾配ブースティング、ブートストラップサンプリング、マージン最大化、カーネル、カーネルトリック、単純パーセプトロン、多層パーセプトロン、活性化関数
、シグモイド関数、ソフトマックス関数、誤差逆伝播法、ベクトル自己回帰モデル (VARモデル)、隠れ層、疑似相関、重回帰分析、AdaBoost、多クラス分類、プルーニング
線形回帰(linear regression):シンプルなモデルの1つデータ(の分布)があったときに、そのデータに最も当てはまる直線を考える。
線形回帰に正則化項を加えた手法としてラッソ回帰(lasso regression)、リッジ回帰(ridge regression)があります。両者の違いはどのような項を用いるか。
線形回帰は回帰問題に用いる手法。これの分類問題版がロジスティック回帰(logistic regression)。
シグモイド関数という関数をモデルの出力に用いる。
任意の値を0から1の間に写像するシグモイド関数を用いることによって、与えられたデータが正例(+1)になるか、負例(0)になるかの確率が求まる。出力の値が0.5以上ならば正例、0.5未満ならば負例と設定し、データを2種類に分類できる。
2種類以上の分類の場合は、シグモイド関数の代わりにソフトマックス関数を用いる。
ランダムフォレスト(random forest):決定木を用いる手法。
ランダムフォレストでは特徴量をランダムに選び出します。すなわち、ランダムに複数の決定木を作る。
学習に用いるデータも全データを使うのではなく、それぞれの決定木に対してランダムに一部のデータを取り出して学習(ブートストラップサンプリング)
予測結果はそれぞれの決定木で異なり、それぞれの結果で多数決をりモデルの最終的な出力を決定。これにより、どれか1つの決定木の精度が悪くても、全体的には精度が高い。
複数のモデルで学習させることをアンサンブル学習。
全体から一部のデータを用いて複数のモデルを用いて学習する方法をバギング(bagging)。ランダムフォレストはバギングの中で決定木を用いている手法。
バギングと同様、一部のデータを繰返し抽出し、複数のモデルを学習させる。違いは、複数のモデルを一気に並列に作成するか(バギング)、逐次的に作成するか(ブースティング)。ブースティングは、まず1つのモデルを作成し学習。次に作成するモデルは、最初に誤認識してしまったデータを優先的に正しく分類できるように学習。順次、前のモデルで誤ったデータに重みを付けて学習を進めていき、最終的に1つのモデルとして出力。
ブースティングも、モデル部分では決定木が用いられており、勾配ブースティング(gradient boosting)が有名。逐次的に学習を進めていく分、一般的にはランダムフォレストよりもこれらのブースティングのモデルのほうがいい精度が得られる。
一方、ブースティングは並列処理ができないため、学習にかかる時間は多くなる。
サポートベクターマシン(Support Vector Machine)はSVMとも呼ばれる。異なるクラスの各データ点との距離が最大となるような境界線を求めることで、パターン分類を行う。この距離を最大化することをマージン最大化と言います。
SVMでは、データをあえて高次元に写像することで、その写像後の空間で線形分類できるようにするというアプローチがとられました。この写像に用いられる関数のことをカーネル関数。その際、計算が複雑にならないように式変形するテクニックのことをカーネルトリック。
ニューラルネットワーク(neural network):人間の脳の中の構造を模したアルゴリズム。
単純パーセプトロン(simple perceptron):モデルは複数の特徴量(入力)を受け取り、1つの値を出力。
入力を受け取る部分を入力層、出力する部分を出力層と表現。入力層における各ニューロンと、出力層におけるニューロンの間のつながりは重みで表され、どれだけの電気信号(値)を伝えるかを調整。そして、出力が0か1の値をとるようにすることで、正例と負例の分類を可能にする。
0から1の値をとるようにする場合は、シグモイド関数を用いる。
単純パーセプトロンは、ロジスティック回帰と数式上の表現は全く同じになる。シグモイド関数のように、層の間をどのように電気信号を伝播させるかを調整する関数を活性化関数。
この手法は線形分類しかできない。
多層パーセプトロン:入力層と出力層の間に追加された層を隠れ層と呼ぶ。隠れ層が追加されたことで非線形分類も行うことが可能。
層が増えることによって調整すべき重みの数も増えるが、予測値と実際の値との誤差をネットワークにフィードバックするアルゴリズムである誤差逆伝播法(backpropagation)がある。
自己回帰モデル(autoregressive model, ARモデル):回帰問題に適用され、時系列データ(time series data)
時系列データ分析のことを単純に時系列分析(time series analysis)とも呼ぶ。
入力は、1種類でも複数種類でも問題ない。複数種類の場合、自己回帰モデルをベクトル自己回帰モデル(vector autoregressive mode、VARモデル)と呼ぶ。
教師なし学習
キーワード
クラスタリング、クラスタ分析、レコメンデーション、デンドログラム(樹形図)、 特異値分解 (SVD) 、多次元尺度構成法、t-SNE、コールドスタート問題、コンテンツベースフィルタリング、潜在的ディリクレ配分法(LDA)、次元削減、次元圧縮
k-means法:データをk個のグループに分けることを目的。k個のkは自分で設定する値。グループのことを正確には クラスタ(cluster)と、k-means法を用いた分析のことをクラスタ分析。
k-means法からさらに、クラスタの階層構造を求めるのがウォード法(Ward's method)。最も距離が近い2つのデータ(クラスタ)を選び、それらを1つのクラスタにまとめる処理を繰り返していく。
樹形図のことをデンドログラム(dendrogram)。
主成分分析(Principal ComponentAnalysis、PCA):データの特徴量間の関係性、相関を分析しデータの構造をつかむ手法。特に特徴量の数が多い場合に用いられ、相関をもつ多数の特徴量から、相関のない少数の特徴量へと次元削減することが主たる目的。ここで得られる少数の特徴量が主成分。
次元削減をすることで、学習にかかる時間を減らしたり、データを可視化したりできる。
主成分分析以外には、特異値分解(Singular Value Decomposition、SVD)、多次元尺度構成法(Multi-Dimensional Scaling、MDS)がよく用いられる。
可視化によく用いられる次元圧縮の手法は、t-SNE(t-distributed Stochastic
NeighborEmbedding)。
協調フィルタリング(collaborative filtering)は、レコメンデーション(recommendation)に用いられる手法のひとつ。レコメンドシステム(推薦システム)に用いられる。Amazon の商品ページで表示される「この商品を買った人はこんな商品も買っています」の裏側には協調フィルタリングが用いられている。
協調フィルタリングは事前にある程度の参考できるデータがない限り、推薦を行うことができない。コールドスタート問題(cold startproblem)と呼ぶ。
これに対し、ユーザーではなく商品側に何かしらの特徴量を付与し、特徴が似ている商品を推薦するのがコンテンツベースフィルタリング(content-based filtering)。対象ユーザーのデータさえあれば推薦を行うことができるので、コールドスタート問題を回避することができるが、反対に他のユーザー情報を参照することができない。
トピックモデル(topic model):k-means法やウォード法と同様クラスタリングを行うモデルだが、データをひとつのクラスタに分類するk-means法などと異なり、トピックモデルは複数のクラスタにデータを分類するのが特徴。
トピックモデルの代表的な手法:潜在的ディリクレ配分法(latent Dirichlet allocation、LDA)
強化学習
キーワード
割引率、ε-greedy 方策、UCB
方策、マルコフ性、状態価値関数、行動価値関数、Q値、Q学習、REINFORCE、方策勾配法、Actor-Critic、A3C
活用と探索のバランスを取る。
活用:現在知っている情報の中から報酬が最大となるような行動を選ぶ
探索:現在知っている情報以外の情報を獲得するために行動を選ぶ
具体的手法:ε-greedy方策(epsilon-greedy policy)(基本的には活用をする、すなわち報酬が最大となる行動を選択するが、一定確率εで探索をする、すなわちランダムな行動を選択するというもの)、UCB方策(upper-confidence bound policy)
方策(policy):ある状態からとりうる行動の選択肢、およびその選択肢をどう決定するかの戦略で確率表現。
一般に状態遷移にマルコフ性を仮定したモデル
マルコフ性(Markov property):環境に対して暗黙的にある仮定を置くことで、「現在の状態から将来の状態に遷移する確率は、現在の状態にのみ依存し、それより過去の状態には一切依存しない」という性質
強化学習の目的は、現在の状態から将来の累積報酬が最大となるような行動を選択していくことだが実際に最適な方策を見つけ出すのは非常に困難な場合が多い。
最適な方策を直接求める代わりに、状態や行動の「価値」を設定し、その価値が最大となるように学習をするアプローチの検討。
状態価値関数(state-value function)、行動価値関数(action-value function)
単純に「価値関数」と言った場合行動価値関数を指す。
価値関数のことをQ値(Q-value)とも呼び、Q値を最適化する手法にはQ学習(Q-learning)、SARSA。
方策をあるパラメータで表される関数とし、(累積報酬の期待値が最大となるように)そのパラメータを学習することで、直接方策を学習していくアプローチ。
方策勾配法は、ロボット制御など、特に行動の選択肢が大量にあるような課題で用いられる。
具体的手法:
REINFORCE:AlphaGo に活用。
Actor-Critic:価値関数ベースおよび方策勾配ベースの考え方を組み合わせ。行動を決めるActor(行動器)と方策を評価するCritic(評価器)から成っているのが由来。
A3C(Asynchronous Advantage Actor-Critic):Actor-Criticの応用
モデルの評価
キーワード
交差検証、ホールドアウト検証、k- 分割交差検証、混同行列、過学習、未学習、正則化、L0 正則化、L1 正則化、L2 正則化、ラッソ回帰、リッジ回帰、LIME、SHAP、オッカムの剃刀、赤池情報量基準 (AIC)、汎化性能、平均二乗誤差、偽陽性-偽陰性、第一種の過誤-第二種の過誤、訓練誤差、汎化誤差、学習率、誤差関数
・正解率(accuracy):(TP+TN)/(TP+TN+FP+FN)
全データ中、どれだけ予測が当たったかの割合。
・適合率(precision)=TP/(TP+FP)
予測が正の中で、実際に正であったものの割合。
・再現率(recall)=TP/(TP+FN)
実際に正であるものの中で、正だと予測できた割合。
・F値(F measure)=(2*perseosopn*recall)/precision+recall)
適合率と再現率の調和平均。適合率のみあるいは再現率のみで判断すると、予測が偏っているときも値が高くなってしまうので、F値を用いることも多い。
過学習(overfitting、オーバーフィッティング):訓練データにのみ最適化されすぎてしまっている状態。
正則化:学習の際に用いる式に項を追加することによってとりうる重みの値の範囲を制限し、過度に重みが訓練データに対してのみ調整されることを防ぐ。一方で、正則化をしすぎてしまうと全体の汎化性能(予測性能)が低下してしまう。これを過学習に対して未学習(underfitting、アンダーフィッティング)と言う。
正則化項:
・L1正則化…一部のパラメータの値をゼロにすることで、特徴選択を行うことができる。
・L2正則化…パラメータの大きさに応じてゼロに近づけることで、汎化された滑らかなモデルを得ることができる。
線形回帰に対してL1正則化を適用した手法をラッソ回帰、L2正則化を適用した手法をリッジ回帰と言います。また、両者を組み合わせた手法をElastic
Netと言います。
正解率などとはまた異なった観点でモデルの性能を評価するもの。
ROC曲線:横軸にFPR、縦軸にTPRを取り、閾値を0から1に変化させていった際の両者の値をプロットしたもので視覚的にモデル性能を捉えることができる指標。2クラス分類で閾値を0から1に変化させていった場合に、予測の当たり外れがどのように変化していくのかを表す。
AUC:ROC曲線より下部の面積のこと。AUCが1に近いほどモデル性能が高いことを表す。
TPR(TruePositive Rate)、 FPR(False Positive Rate)
TPR=TP/(TP+FN)
FPR=FP/(FP+TN)
TPR=再現率(recall)
オッカムの剃刀(Occam's razor / Ockham's razor):ある事柄を説明するためには、必要以上に多くを仮定するべきでない」という指針
赤池情報量規準(Akaike's Information Criterion, AIC):モデルの複雑さと予測精度のバランスを考えたもの。AIC = 2log+2
ディープラーニングの概要
ニューラルネットワークとディープラーニング
キーワード
誤差逆伝播法
ニューラルネットワークは機械学習の手法の1つ。隠れ層がないモデル
ニューラルネットワークは機械学習の手法の1つ
ディープラーニング:隠れ層を増やしたニューラルネットワーク。
勾配消失問題:ニューラルネットワークは、モデルの予測結果と実際の正解値との誤差をネットワークの出力層から入力層にかけて逆向きにフィードバックさせる形でネットワークの重みを更新した(誤差逆伝播法)。ネットワークを深くすると、誤差が最後まで正しく反映されなくなってしまう。 隠れ層を単純に増やしただけのニューラルネットワークでは、モデルの精度は上がるところか、大きく下がってしまう。シグモイド関数の特性。
ディープラーニングのアプローチ
キーワード
制限付きボルツマンマシン
オートエンコーダを順番に学習していく手順のこと。
可視層と隠れ層の2層からなるネットワーク。可視層は入力層と出力層がセットになったもの。「入力と出力が同じになるようなネットワーク」
エンコード(encode):入力層→隠れ層における処理
デコード(decode):隠れ層→出力層における処理
ジェフリー・ヒントン考案。
オートエンコーダを順番に学習させ、それを積み重ねていくというアプローチで、ディープニューラルネットワークのように一気にすべての層を学習するのではなく、入力層に近い層から順番に学習させるという、逐次的な方法。
事前学習を終え、ロジスティック回帰層を足し、ディープニューラルネットワーク全体で学習を行うこと。積層オートエンコーダは事前学習とファインチューニングの工程で構成される。
ジェフリー・ヒントン提唱、教師なし学習(オートエンコーダに相当する層)に
制限付きボルツマンマシン(restricted boltzmannmachine)という手法を用いている。
事前学習の欠点:全体の学習に必要な計算コストが非常に高い。
ディープラーニングの研究が活発になったことにより、今では事前学習が必要なくなった。勾配消失問題の原因であった活性化関数を工夫するといったテクニックを用いることでこれを実現。
ディープラーニングを実現するには
キーワード
TPU
Intel社の創設者の1人であるゴードン・ムーアが提唱:「半導体の性能と集積は、18ヶ月ごとに2倍になる」という経験則、通称ムーアの法則。今は限界を迎えてきたと言われている。
CPU:コンピュータ全般の作業を処理する役割を担います。様々な種類のタスクを順番に処理していくことに長けている。
GPU: “graphics” という名前が表している通り、画像処理に関する演算を担う。GPUのほうがCPUより「優れている」というわけではない。GPUはCPUのように様々なタスクをこなすことができない。
画像以外の目的での使用に最適化されたGPUのこと
GPU(GPGPU)の開発をリードしているのが NVIDIA社。ディープラーニング実装用のライブラリのほぼ全てが NVIDIA社製の GPU 上での計算をサポー。
一方で、Google社は、テンソル計算処理に最適化された演算処理装置を開発しており、TPU(Tensor Processing Unit)と呼んでいる。
畳み込みニューラルネットワーク手法の1つである AlexNet(アレックスネット)と呼ばれるモデルのパラメータ数は、約6000万個にもなります。
バーニーおじさんのルール:「モデルのパラメータ数の10倍のデータ数が必要」
活性化関数
キーワード
Leaky ReLU 関数
シグモイド関数を線形変換したもので、シグモイド関数が0から1の範囲をとるのに対して、tanh関数は-1から1の範囲をとる。
シグモイド関数の微分の最大値が0.25であったのに対して、tanh関数の微分の最大値は1であるので、勾配が消失しにくい。一般的なディープニューラルネットワークの隠れ層の活性化関数にシグモイド関数が使われている場合、それはすべてtanh関数に置き換えたほうがよいことになる。
シグモイド関数よりは高い精度が出やすいものの、あくまでも微分の“最大値”が1であり、1より小さい数になってしまうケースがほぼ全てですので、ディープネットワークでは、勾配消失問題を完全に防げてはいない。
tanh関数よりも勾配消失問題に対処できるの。
ReLU関数を微分すると0より大きい限り、微分値は常に最大値である1が得られることになります。tanh関数のようにピーク値のみが1のときと比較すると、誤差逆伝播の際に勾配が小さくなりにくい(勾配消失しにくい)。
派生系:
LeakyReLU関数:□<0においてわずかな傾きをもっている。これにより、微分値が0になることはなくなりますから、ReLUよりも勾配消失しにくい、すなわちよりよい精度が出やすい活性化関数として期待。実際は、精度が出るときもあれば、ReLUのほうがよい場合もあり、Leaky ReLUのほうが必ず“よい”活性化関数であるとは言い切れない。
Parametric ReLU:Leaky ReLUの□<0部分の直線の傾きを学習によって最適化しようとしたもの
Randomized ReLU:複数の傾きをランダムに試す
学習率の最適化
キーワード
学習率、誤差関数、交差エントロピー、イテレーション、エポック、局所最適解、大域最適解、鞍点、プラトー、モーメンタム、AdaGrad、AdaDelta、RMSprop、Adam、AdaBound、AMSBound、ハイパーパラメータ、ランダムサーチ、グリッドサーチ、確率的勾配降下法、最急降下法、バッチ学習、ミニバッチ学習、オンライン学習、
データリーケージ
勾配に沿って降りていくことで解を探索する。ここで言う勾配とは微分値。
目的の解が得られるまで勾配に沿って降りていき、解を探索するわけなので、この式を繰り返し計算する。
イテレーション:何回繰り返し計算を行ったかを示すもの。
α:学習率と呼ばれるハイパーパラメータで、「勾配に沿って一度にどれだけ降りていくか」を決めるもの。
ニューラルネットワークの「学習」とは、この勾配降下法を用いて繰り返し計算を行うことを指す。最適解が見つかるまでひたすら探索をするため時間がかかる。
勾配降下法は「見せかけの最適解」であるかどうかを見抜くことができない。
・局所最適解:見せかけの解のこと
・大域最適解:本当の最適解のこと
特に何も工夫をしないと、勾配降下法は局所最適解に陥ってしまう可能性が高くなる。
・局所最適解を防ぐ方法:学習率の値を大きく設定。山を越えるくらい学習率を大きくすれば、大域最適解に行き着くことができそうです。一方、学習率が大きいままだと、最適解を飛び越えて探索し続けてしまうという問題が起こりやすくなってしまうので、適切なタイミングで学習率の値を小さくしていくことが必要。
鞍点:ある次元から見れば極小であるものの、別の次元から見ると極大となってしまっているもの。一度鞍点付近に陥ると、そこから抜け出すことは困難になります(こうした停留状態にあることをプラトーと言います)。
鞍点問題への対処: 1990年代に提唱されたモーメンタムと呼ばれる手法。最適化の進行方向に学習を加速させることで、学習の停滞を防ぐものです。
モーメンタムより効率的な手法:古いものからAdagrad、Adadelta、RMSprop、Adam、AdaBound、AMSBound。
更なるテクニック
キーワード
過学習、アンサンブル学習、ノーフリーランチの定理、二重降下現象、正規化、標準化、白色化
過学習を防ぐ手法。学習の際にランダムにニューロンを「ドロップアウト」させるもの。もともとのネットワークから、学習の繰り返しごとにニューロンを除外することで、毎回形の異なるネットワークで学習を行います。
ドロップアウトはアンサンブル学習を行っている。
ドロップアウトは、誤差関数が「予測値と正解値の誤差」であり、訓練データを用いて最小化するアプローチしか取れない以上、どう工夫をしても(訓練データに)過学習していってしまうのは避けられない。
学習を早めに打ち切る。学習が進むにつれてテストデータに対する誤差関数の値は右肩上がりになってしまいます。その上がり始めが過学習のし始めと考え、その時点で学習を止めれば、そこが最適な解が得られたところと言える。
ジェフリー・ヒントンはearly stoppingのことを“Beautiful FREE LUNCH”と表現。ノーフリーランチ定理という、「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能」であることを示す定理を意識して発せられた言葉。
ただし、最近の研究では、一度テストデータに対する誤差が増えた後、再度誤差が減っていくという二重降下現象(double descentphenomenon)も確認されており、どのタイミングで学習を止めれば良いのかについては慎重に検討しなくてはならない。
データ全体を調整する処理のことを正規化。
白色化:各特徴量を無相関化したうえで標準化するという手法。ただし、白色化は計算コストが高いので、標準化を用いるのが一般的。
正規化しても、層を伝播していくにつれ分布が徐々に崩れていく。層の数が増えても、データの分布が偏らないような方法が重みの初期値を工夫するというアプローチ。
勾配降下法に用いる初期値はランダムに設定せざるを得ない。
シグモイド関数に対してはXavierの初期値、
ReLU関数に対してはHeの初期値がよいとされている。
勾配降下法の探索は初期値に依存しているので、重みの初期値の設定は重要。
各層に伝わってきたデータを、その層でまた正規化すること。
学習がうまくいきやすくなるという利点以外にも、過学習しにくくなることも知られている。
ディープラーニングの手法
畳み込みニューラルネットワーク(CNN)
キーワード
ネオコグニトロン、LeNet、サブサンプリング層、畳み込み、フィルタ、最大値プーリング、平均値プーリング、グローバルアベレージプーリング(GAP)、Cutout、Random
Erasing、Mixup、CutMix、MobileNet、Depthwise Separable Convolution、NAS (Neural ArchitectureSearch)、EfficientNet、NASNet、MnasNet、転移学習、局所結合構造、ストライド、カーネル幅,プーリング,スキップ結合、各種データ拡張、パディング
CNNは、
・単純型細胞(S細胞):画像の濃淡パターン(特徴)を検出する。
・複雑型細胞(C細胞):特徴の位置が変動しても同一の特徴であるとみなす。
この2つの細胞の働きを最初に組み込んだモデルはネオコグニトロンと呼ばれるもので、福島邦彦らによって考えられました。多層構造をしています。
その後1998年に、ヤン・ルカンによってLeNetと呼ばれる有名なCNNのモデルが考えられました。こちらは畳み込み層とプーリング層(またはサブサンプリング層)の2種類の層を複数組み合わせた構造をしている。
ネオコグニトロンとLeNetは層の名前こそ違うものの、構造上は非常に似ています。ネオコグニトロンにおけるS細胞層がLeNetにおける畳み込み層、C細胞層がプーリング層にそれぞれ対応しています。ただし、ネオコグニトロンは微分(勾配計算)を用いないadd-if silentと呼ばれる学習方法を用いるのに対し、LeNetでは誤差逆伝播法を用いる。
畳み込み(convolution)処理:フィルタ(またはカーネル)を用いて画像から特徴を抽出する操作。
フィルタの各値が通常のニューラルネットワークで言うところの重みになる。
畳み込み層によって、「位置のズレ」に強いモデルができる。
プーリング処理:画像サイズを決められたルールに従って小さくします。ダウンサンプリングあるいはサブサンプリングとも呼ぶ。プーリングには、ある小領域ごとの最大値を抽出する最大値プーリング(max pooling)や平均値プーリング(average pooling)がある。
畳み込み層と異なり、プーリング層には学習すべきパラメータは存在しない。
CNN(LeNet)では、畳み込み層・プーリング層を繰り返した後、全結合層という、いわゆる通常のニューラルネットワークと同じ構造を積層。
最近のCNNの手法では、この全結合層を用いず、代わりに特徴マップの平均値を1つのユニット(ニューロン)の値にするGlobal Average Poolingと呼ばれる処理を行うことが多い。
手元にある画像から擬似的に別の画像を生成するというアプローチ。データの「水増し」に相当。手元にある画像に対して、ランダムにいくつかの処理を施して新しい画像を作り出す。
Cutout、Random Erasing:画像の一部分に対して画素値を0またはランダムにする
Mixup:2枚の画像を合成する
CutMix:CutoutとMixupを組み合わせたもの
VGG:畳み込み層→畳み込み層→プーリング層の塊を繰り返し、16層まで積層。VGGでは、深くなっても学習できるよう、いったん少ない層数で学習した後、途中に畳み込み層を追加して深くする学習方法を採用。
GoogLeNet:層を深くするだけでなく、同時に異なるフィルタサイズの畳み込み処理を行うInceptionモジュールを導入。Inceptionモジュールを積層することで深いネットワークにしつつ、着目する範囲が異なる特徴を合わせて捉えることがでる。
VGGやGoogLeNetは、10から20層程度の深さだが、さらに「超」深層になると識別精度が落ちるという問題に直面。
ResNet:更に深いネットワークを実現するためにSkip connectionと呼ばれる「層を飛び越えた結合」を加えたネットワーク
・層が深くなっても、層を飛び越える部分は伝播しやすくなる。
・様々な形のネットワークのアンサンブル学習になっている。
現在では100層以上のネットワークが構築されることも。
MobileNet:モバイル端末などの使用できるメモリ量が限られている環境でも利用できるよう、畳み込み層のパラメータ数を削減するモデル。
通常の畳み込み処理の代わりにDepthwise Separable Convolutionを用いる。これにより、通常の畳み込み処理と比べて計算量を1/8程度に削減。
Depthwise Separable Convolution:空間方向とチャネル方向に対して独立に畳み込み処理を行う。空間方向はDepthwise Convolution、チャネル方向はPointwise Convolutionと呼ぶ。Depthwise Convolutionは、特徴マップのチャネル毎に畳み込み処理を行います。Pointwise Convolutionは、1×1の畳み込み処理を行う。
Depthwise Convolutionの計算量はO(H W N K2)、Pointwise
Convolutionの計算量はO(H W N M)となります。通常の畳み込み処理をDepthwise Separable Convolutionに置き換えることで、計算量がO(H W N K2 M)からO(H W N K2 + H W N M)に削減できる。ただし、通常の畳み込み処理の近似計算なので、精度は一致しない。
Neural Architecture Search(NAS):リカレントニューラルネットワークと深層強化学習を用いてネットワーク構造を探索。認識精度が高くなるよう深層強化学習によりネットワークを生成する部分を学習。生成する単位をResNetのResidual Blockような塊にする工夫を導入したNASNetや、認識精度だけでなくモバイル端末での計算量も考慮する工夫を導入したMnasNetなどもある。
EfficientNet:転移学習に有用なモデル
転移学習:ImageNetで学習したモデルなどに新たに何層かを自分で付け足し、その層だけを学習すること
ファインチューニング:付け足した層だけではなく、ネットワーク全体を学習する方法
深層生成モデル
キーワード
ジェネレータ、ディスクリミネータ、DCGAN、Pix2Pix、CycleGAN
画像のデータセットがどのような分布になっているかを推測し、その分布に基づいて、元の画像と似たような画像データを生成する(サンプリングする)ことを目的としたモデル
深層生成モデル:ディープラーニングを取り入れた生成モデル。
画像分野で成果出してるモデル:変分オートエンコーダ(Variational AutoEncoder、VAE)、敵対的生成ネットワーク(Generative Adversarial Network、GAN)
VAEは、モデルの名前にも含まれている通り、オートエンコーダを活用。入力データを圧縮表現するのではなく、統計分布に変換します。平均と分散で表現するように学習。エンコーダが入力データを統計分布のある1点となる潜在変数に変換します。デコーダは、統計分布からランダムにサンプリングした1点を復元することで、新しいデータを生成。
GANは2種類のネットワークで構成されており、それぞれジェネレータ(generator)とディスクリミネータ(discriminator)
・ジェネレータ:ランダムなベクトルを入力とし、画像を生成して出力。
・ディスクリミネータ:画像を入力とし、その画像が本物か(ジェネレータによって生成された)偽物かを予測して出力。
ディスクリミネータによる予測結果はジェネレータにフィードバックされる。GANは2種類のネットワークを競い合わせることで、最終的には本物と見分けがつかないような偽物、すなわち新しい画像をつくりだすことを実現。
DCGAN(Deep Convolutional GAN):畳み込みニューラルネットワークを採用したもの。高解像度な画像の生成を可能に。
Pix2Pix:ベクトルの代わりにある画像データを入力し、別の画像に変換する処理。あらかじめペアの画像を学習のために用意しておく必要。
Cycle GAN:画像のペアが必要ない方法。ある画像を変換し、その変換した画像をもとの画像に再度変換。そのとき、通常のGANのように変換した画像が本物かどうかを予測するだけでなく、元の画像と再度変換した画像が一致するように学習。
画像認識分野
キーワード
ILSVRC、AlexNet、Inception モジュール、GoogLeNet、VGG、スキップ結合、ResNet、Wide
ResNet、DenseNet、SENet、R-CNN、FPN、YOLO、矩形領域、SSD、Fast R-CNN、Faster
R-CNN、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、FCN (Fully Convolutional Netwok)、SegNet、U-Net、PSPNet、Dilation
convolution、Atrous convolution、DeepLab、Open Pose、Parts Affinity Fields、Mask R-CNN
ILSVRC:識別タスクとして開催されている大会。
2012年:アレックスネット(AlexNet)が、従来手法の精度を圧倒し、ディープラーニングに基づくモデルとして初めて優勝。
2014年:Inceptionモジュールというカーネルサイズの異なる複数の畳み込み層から構成される小さなネットワークを積層したGoogLeNetが優勝
2015年:超多層でも学習がうまくいくように考えられたSkip connectionを導入したResNetが優勝。エラー率はおおよそ0.05。
2017年:畳み込み層が出力した特徴マップに重み付けするAttention機構を導入したSqueeze-and-Excitation Networks(SENet)が優勝
入力画像に写る物体クラスの識別とその物体の位置を特定するタスク。物体の位置は、矩形領域(四角形)とし、その左上の座標と右下の座標を出力します。
2段階モデル:大まかな物体の位置を特定した後、その物体クラスを識別する。R-CNN、FPN
1段階モデル:位置の特定とクラスの識別を同時に行う。YOLO、SSD。
R-CNN:物体候補領域ごとにこのような識別処理を行うため、処理時間がかかる。
Fast R-CNN:R-CNNの構造を簡略化して、高速化されたモデル。画像全体を入力して特徴マップを獲得することで高速化。特徴マップ上で物体候補領域に相当する部分を切り出し、識別処理を行う。
Faster R-CNN:Selective
SearchをRegion Proposal NetworkというCNNモデルに置き換えて更なる高速化されたモデル。
YOLO(You Only Look Once):出力層を工夫して入力画像の各位置における物体領域らしさと矩形領域を直接出力する仕組み。バッチ正規化や入力画像サイズの高解像度化などの新たなテクニックを導入したモデルも登場し、より高い検出精度を達成。
SSD:CNNの途中の特徴マップからYOLOのように領域単位で物体らしさと矩形領域を出力。
画像の画素ごとに識別を行うタスク。画像全体を対象とするセマンティックセグメンテーション、物体検出した領域を対象とするインスタンスセグメンテーションがある。セマンティックセグメンテーションの場合は、同一クラスの物体をひとまとめにするので、集団の歩行者などを一人一人分離することができません。インスタンスセグメンテーションは、物体検出した領域に対してセグメンテーションを行うため、一人一人を分離できるようになります。個々の物体をそれぞれ分離しつつ、道路や建物などはひとまとめにするパノプティックセグメンテーションもある。
セマンティックセグメンテーション:1画素の情報から何のクラスかを識別することは不可能。
FCN(Fully Convolutional Network):CNNをセマンティックセグメンテーションタスクに利用した方法
SegNet:畳み込み層とプーリング層を繰り返し積層することで小さくなった特徴マップを徐々に拡大する構造を採用した方法。
特徴マップを徐々に小さくしていく部分をエンコーダ、徐々に大きくしていく部分をデコーダ
U-Net:デコーダ側で特徴マップを拡大して畳み込み処理する際、エンコーダ側の特徴マップを同じサイズになるよう切り出して利用するモデル。X線画像の医療画像診断に用いられている。
PSPNet:エンコーダとデコーダの間にPyramid Pooling Moduleという複数の解像度で特徴を捉えるモジュールを追加したもの。
DeepLab:Atrous convolutionを導入したモデル。
DeepLab V3+:SegNetやU-Netのようなエンコーダとデコーダの構造、PSPNetのような複数解像度の特徴を捉える機構(ASPP:Atrous Spatial Pyramid Pooling)を採用したモデル
人の頭や足、手などの関節位置を推定するタスク。
Open Pose:複数の人の骨格を同時に推定できるようにした手法。Parts Affinity Fieldsと呼ばれる骨格間の位置関係を考慮した処理を導入。これにより、骨格の位置関係が分かるようになる。
複数のタスクを1つのモデルで対応することをマルチタスク。Faster R-CNNやYOLOなどの物体検出モデルは、物体クラスの識別と物体領域の位置検出を同時に行っているのでマルチタスクとも言える。
Mask R-CNN:Faster
R-CNNによる物体検出だけでなく、セグメンテーションも同時に行うマルチタスクのモデル。このセグメンテーションは、物体検出した領域ごとに行うので、インスタンスセグメンテーション。
音声処理と自然言語処理分野
キーワード
LSTM、CEC、GRU、双方向 RNN (Bidirectional RNN)、RNNEncoder-Decoder、BPTT、Attention、A-D 変換、パルス符号変調器(PCM)、高速フーリエ変換 (FFT)、スペクトル包絡、メル周波数ケプストラム係数 (MFCC)、フォルマント、フォルマント周波数、音韻、音素、音声認識エンジン、隠れマルコフモデル、WaveNet、メル尺度、N-gram、BoW
(Bag-of-Words)、ワンホットベクトル、TF-IDF、単語埋め込み、局所表現、分散表現、word2vec、スキップグラム、CBOW、fastText、ELMo、言語モデル、CTC、Seq2Seq、Source-Target Attention、Encoder-Decoder Attention、Self-Attention、位置エンコーディング、GPT、GPT-2、GPT-3、BERT、GLUE、Vision
Transformer、構文解析、形態要素解析
変換処理をA-D変換(Analog to Digital Conversion):空気の振動が波状に伝わるアナログなデータである音声をコンピューターでために離散的なデジタルデータにパルス符号変調(Pulse Code Modulation、PCM)等で変換すること
音声はパルス符号変調(Pulse Code Modulation、PCM):連続的な音波を一定時間ごとに観測する標本化(サンプリング)、観測された波の強さをあらかじめ決められた値に近似する量子化、量子化された値をビット列で表現する符号化の3つのステップを経てデジタルデータに変換。
高速フーリエ変換(Fast Fourier Transform、FFT):周波数解析を高速に行う方法。FFTにより音声信号は周波数スペクトルに変換できる。
メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients、MFCC):入力された音のスペクトル包絡に相当する係数列が得られ、「音色」に関する特徴量となる。
隠れマルコフモデル(Hidden Markov Model、HMM):音響モデル標準的に用いられていたモデル
TF-IDF(Term Frequency-Inverse Document Frequency):単語の重要度のようなものを計算する手法の一つ。各文書の単語ごとに計算され、TFとIDFという2つの値を掛け合わせたものになる。値の大きさがある程度その単語の重要度を表していると考えることができる。
局所表現(local representation):ワンホットベクトルは値が0か1しかなく離散的で、1をとる次元が1つしかないため情報が疎であり、次元数が単語の種類数と等しいため、非常に高次元であるという特徴。
word2vec:単語の意味は、その周辺の単語によって決まるという分布仮説と呼ばれる言語学の主張をニューラルネットワークとして実現したもの
‐スキップグラム(skip-gram):ある単語を与えて周辺の単語を予測するモデル
‐CBOW(Continuous Bag-of-Words):周辺の単語を与えてある単語を予測するモデル
fastText:word2vecを提案したトマス・ミコロフらによって新たに開発され、word2vecの延長線上にあるライブラリ。word2vecと比較した場合のfastTextの変更点は、単語埋め込みを学習する際に単語を構成する部分文字列の情報も含めること。部分文字列の情報を併用することで訓練データには存在しない単語(Out Of Vocabulary、OOV)であっても単語埋め込みを計算したり、活用する単語の語幹と語尾を分けて考慮したりすることを可能に。
ELMo(Embeddings from Language Models):文脈を考慮した分散表現を得る手法
言語モデル(Language Model、LM):過去に入力された単語列から次に来る単語を予測するもので、音声処理でも自然言語処理でも使われます。Pretrained Modelsの基礎にもなっている。 BackPropagation Through-Time(BPTT)とも
Connectionist Temporal Classification(CTC):出力候補として音素に加えて空文字を追加し、さらに連続して同じ音素を出力した場合には1度だけ出力したものと縮約する処理を行うことで出力長と正解長の違いに対処
LSTM
入力重み衝突:重みは大きくすべきであり、同時に小さくすべきであるという矛盾
GRU(Gated Recurrent Unit):LSTMを少し簡略化したもの
・Bidirectional RNN:RNNを2つ組み合わせることで、未来から過去方向も含めて学習できるようにしたモデル
・RNNエンコーダ-ディコーダ:
・sequence-to-sequence(Seq2Seq):入力が時系列なら出力も時系列で予測するモデル。
・Attention:時間の重みをネットワークに組み込んだもの
ニューラル機械翻訳の新たなモデルとして提案された。トランスフォーマーはエンコーダとデコーダからRNNを排除し、代わりにSelf-Attention(自己注意機構)と呼ばれるネットワーク構造を採用している。ネットワーク全体がSelf-AttentionとSource-Target Attentionという2種類のAttention機構のみから構成されているため、並列計算がしやすく、RNNと比べて高速にモデルの学習が行える。またSelf-Attentionのおかげで遠い位置にある単語同士の関係もうまく捉えることができる。
・Self-Attention(自己注意機構):入力文内の単語間または出力文内の単語間の関連度を計算したもの。入力文内の全ての単語間の関係を1ステップで直接計算することが可能。
位置エンコーディング(positional encoding)と呼ばれる単語の出現位置に固有の情報を入力に付加し、ニューラルネットワークは間接的に単語の位置情報や単語間の位置関係を考慮することができる。
事前学習モデルというときはGPTやBERTのことを指し、word2vecやELMoは含まないことが一般的。
GPT(Generative
Pre-Training):OpenAIが開発した事前学習モデル。大規模なコーパスを用いた言語モデルの学習で、トランスフォーマーのデコーダと似た構造を持ったネットワークを用いている。デコーダの構造のみを用いている。
エンコーダがないためSource-Target Attentionがない。次のタスクができない。
・自然言語推論(Natural
Language Inference、NLI):与えられた2つの文書の内容に矛盾があるか、一方が他方を含意するかなどを判定するタスク。含意関係認識(Recognizing Textual Entailment、RTE)とも。
・質問応答(question
answering):文章とこれに関する質問文が与えられ、適切な回答を選択肢の中から選ぶタスク。しばしば常識推論(commonsensereasoning)が必要となる。
・意味的類似度(semantic
similarity)判定:2つの文が与えられ、これらが同じ意味であるか否かを判定するタスク。
・文書分類(document
classification):与えられた文書がどのクラスに属すかを予測するタスク。評判分析タスクも文書分類の一種である。
BERT(Bidirectional Encoder Representations from Transformers):Google社が開発した事前学習モデル。Masked Language Model(MLM)とNext Sentence Prediction(NSP)の2つのタスクにより事前学習。
未来から現在までも合わせて両方向(Bidirectional)の情報を同時に使うことができるため、通常の言語モデルによる事前学習よりも強力であることが期待。
・Pre-trained Modelの発展:
ALBERTやDistilBERT:タスクの精度を落とさずにパラメータ数を削減するモデル。
GPT-2:パラメータ数を増やすことでより強力なモデルに。約15億のパラメータ。GPTでは行えなかった機械翻訳などの言語生成タスクも行える。
Megatron-LM:NVIDIAから登場した約83億のパラメータを持つモデル
Turing-NLG:Microsoftから登場した170億ものパラメータを持つモデル
GPT-3:パラメータ数は1750億
深層強化学習分野
キーワード
DQN、ダブル DQN、デュエリングネットワーク、ノイジーネットワーク、Rainbow、モンテカルロ木探索、アルファ碁 (AlphaGo)、アルファ碁ゼロ (AlphaGo Zero)、アルファゼロ (Alpha Zero)、マルチエージェント強化学習、OpenAI Five、アルファスター (AlphaStar)、状態表現学習、連続値制御、報酬成形、オフライン強化学習、sim2real、ドメインランダマイゼーション、残差強化学習
Q学習:ある特定の状態に対して1つの行動価値(Q値)を割り当てて、その行動価値に対する学習を行う。ピクセル単位のわずかな違いであっても別の状態と認識されるため、パターンが膨大で1つ1つ行動価値を割り当てる手法は非現実的。
DQN(Deep Q-Network):DeepMind社が発表。Atari社が開発した家庭用ゲーム機Atari2600の多様他種なゲームを、人間並み、または人間以上のスコアで攻略できることが示され深層強化学習が注目を浴びるきっかけに。
‐DQNが導入した新しい学習手法:
経験再生(experience replay):経験再生は、環境を探索する過程で得た経験データをリプレイバッファと呼ばれる機構に保存し、あるタイミングで、これらの保存データをランダムに複数抜き出してディープニューラルネットワークの学習に使う手法。学習に使うデータの時間的偏りをなくし学習の安定化を図る。
ターゲットネットワーク(target network):現在学習しているネットワークと、学習の時間的差分がある過去のネットワークに教師のような役割をさせる手法。これにより価値推定を安定させる。
DQNの拡張手法:
‐ダブルDQN(double deep q-network)、優先度付き経験再生(prioritizedexperience replay):経験再生やターゲットネットワークの使い方を工夫
‐デュエリングネットワーク(dueling network)、カテゴリカルDQN(categorical deep q-network)、ノイジーネットワーク(noisy network):ディープニューラルネットワークのアーキテクチャや出力を工夫
‐Rainbow:上記全てを組み合わせ。
‐内発的報酬(intrinsic reward):報酬の工夫
ゼロ和性:一方が勝てば他方が負ける
2人完全情報確定ゼロ和ゲーム:偶然の要素がない確定性という性質を満たすゲームはゲーム木を全て展開することで必勝法を見つけられる。しかし、これを現実的な時間で行うのは不可能であるため、効率化する手法が必要。
モンテカルロ木探索:複数回のゲーム木の展開によるランダムシミュレーション(プレイアウト)をもとに近似的に良い打ち手を決定する手法。
■ AlphaGo(アルファ碁):2016年、DeepMind社が開発したゲームAI。世界的なトップ囲碁棋士であるイ・セドル九段に囲碁で勝利。モンテカルロ木探索に深層強化学習の手法を組み合わせている。
‐打ち手の評価:盤面から勝率を計算するバリューネットワークや、ポリシーネットワークと呼ばれるディープニューラルネットワーク。
ネットワークの学習には人間の棋譜のデータを使った教師あり学習や、複製したAlphaGoとの自己対戦(self-play)で獲得された経験を使って深層強化学習を行う。
■ AlphaGo Zero(アルファ碁ゼロ):AlphaGoの発展系。人間の棋譜データを用いた教師あり学習は一切行わず、最初から自己対戦を行なって得たデータのみで深層強化学習を行う。ゼロからの自己対戦のみで、AlphaGoをも上回る強さに。
■ Alpha Zero(アルファゼロ):AlphaGoの完成系のゲームAI。将棋やチェスでも高性能を発揮。自己対戦のみで学習。
マルチエージェント強化学習:複数エージェントによる強化学習(大人数のチーム戦で、リアルタイムにゲームが進行し、不完全情報ゲームであるものを対象)
■ OpenAI Five:2018年。OpenAIは、MOBA(Multiplayer Online Battle Arena)と呼ばれる多人数対戦型ゲームDota2において、世界トップレベルのプレイヤーで構成されるチームを打倒できるゲームAI。ディープニューラルネットワークに、系列情報を処理するLSTMを使い、PPOと呼ばれる強化学習のアルゴリズムを使って極めて大規模な計算資源で学習した5つのエージェントのチームによって、世界トップレベルのプレイヤーに勝利を収めました。特筆すべきはその学習に使った膨大な計算資源と学習時間であり、5万個以上のCPUと1000個以上のGPUを使用して10ヶ月に及ぶ強化学習を行った。
■ AlphaStar:2019年。DeepMind社は、RTS(Real-Time Strategy)と呼ばれるゲームジャンルに属する対戦型ゲーム、スタークラフト2において、グランドマスターという称号を持つトッププレイヤーを打倒できるゲームAI。
AlphaStarは、ResNet、LSTM、Pointer Network、トランスフォーマーなど、画像処理や自然言語処理の手法も多く取り入れたネットワークを使って学習。強化学習時にはゲーム理論や、自己対戦の発展系の手法を使うなど、様々な人工知能技術が巧みに組み合わされて構成されており、いわば人工知能技術の集大成的なアルゴリズム。
次元の呪い(curse of dimensionality):状態や行動の数が指数的に増大するため学習が困難になる
状態表現学習(state representation learning):問題に対して適切な方策を学習できるように、エージェントは入力となるセンサデータから、「状態」に関する良い特徴表現を学習
連続値制御(continuous control):連続値の行動を直接出力する問題設定
事前知識(ドメイン知識、domain knowledge):
オンラインのアルゴリズム:エージェントが学習過程で環境内で実際に試行錯誤して方策を獲得する枠組み
模倣学習(imitation learning):人間が期待する動作をロボットに対して教示することで、ロボットが方策を学習する問題設定。教示データはデモンストレーションと呼ばれる。
sim2real:シミュレータで学習した方策を現実世界に転移して利用する設定。しかし、リアリティギャップ(reality gap)と呼ばれる、現実世界とシミュレータで再現された世界の間の差異が生まれるため、学習した方策を実世界に転移した際、性能を低下させる大きな原因になることがある。
ドメインランダマイゼーション(domain randomization):ランダムに設定した複数のシミュレータを用いて生成したデータから学習することでsim2realの課題解決に。
残差強化学習(residual reinforcement learning):従来のロボット制御で用いられてきたような基本的な制御モジュールの出力と、実際にロボットがタスクを行う環境における最適な方策との差分を強化学習によって学習することを目指す。
モデルベース(model-based)強化学習:環境に関する予測モデルを明示的に活用しながら方策の学習を行う強化学習アルゴリズム
世界モデル(world model):エージェントが、得られる情報を元に自身の周りの世界に関する予測モデルを学習して、方策の学習に活用する枠組み
モデルの解釈性の問題とその対応
キーワード
モデルの解釈、CAM
ディープラーニングのモデルは予測の判断根拠を説明するのが苦手。
画像認識系のタスクを対象として、モデルの予測判断根拠を示すために「画像のどこを見ているか」を可視化 。勾配情報を用いて可視化を行う。
‐問題点:Grad-CAMはその過程で画像が低解像度になってしまう→入力値の勾配情報も用いたGuided Grad-CAMという手法
キーワード
蒸留、モデル圧縮、量子化、プルーニング
ディープラーニングの社会実装に向けて
AIと社会
キーワード
AI による経営課題の解決と利益の創出、法の順守、ビッグデータ、IoT、RPA、ブロックチェーン
AIプロジェクトの進め方
キーワード
CRISP-DM、MLOps、BPR、クラウド、Web API、データサイエンティスト、プライバシー・バイ・デザイン
BPR(Business Process Re-engineering)
Web API:ネットワーク越しにシステム間で情報を受け渡す仕組み。クラウドをはじめとしたコンピューティングリソース上にモデルを置いて利用できるようにすることを、デプロイと。エッジは、利用現場側に配備するリソースのことで、その場でモデルを実行します。
プライバシー・バイ・デザイン(Privacy by Design、PbD):開発段階からプライバシー侵害の予防を指向する考え方
セキュリティ・バイ・デザイン(Security byDesign):
バリュー・センシティブ・デザイン(Value sensitive design):
データの収集
キーワード
オープンデータセット、個人情報保護法、不正競争防止法、著作権法、特許法、個別の契約、データの網羅性、転移学習、サンプリング・バイアス、他企業や他業種との連携、産学連携、オープン・イノベーション、AI・データの利用に関する契約ガイドライン
オープンデータセット:企業や研究者が公開しているデータセット。ImageNet、PascalVOC、MS COCO、WordNet、SQuAD、DBPedia、LibriSpeech・・・
①著作権法、②不正競争防止法、③個人情報保護法等、④個別の契約、⑤その他の理由により、データの利用に制約がかかっている場合があります。
例外規定: 学習用データの作成については一定の要件のもと自由に行える(著作権法30条の4)
著作権法がOKでも他の規定の制約:営業秘密にあたるデータ(不正競争防止法2条6項)、限定提供データ(不正競争防止法2条7項)、購買履歴や位置情報などのパーソナルデータ、ライセンス契約で利用条件が指定されているデータ、「通信の秘密」にあたるEメールの内容、憲法21条2項・電気通信事業法4条)など
「金融分野における個人情報保護に関するガイドライン」:機微情報(人種・犯罪の経歴・病歴などのデータ)について取得・利用・第三者提供のいずれも原則禁止とされており、個人情報保護法における要配慮個人情報の取扱い原則よりも厳しい規律。
適法:日本の著作権法では、「情報解析の用に供する場合」に著作物を利用することが、営利・非営利を問わず適法。世界的に見ても先進的。
※「著作権者の利益を不当に害する」場合はその限りではないとするただし書きあり。
サンプリング・バイアス:不適切な標本抽出により標本が母集団を表さないこと。
‐現実世界の偏見をそのまま反映することが問題視されることがある。
‐データがそもそもデータベースに登録されていないために偏りが発生する場合も。米国では、レイプ・強盗・凶悪な暴行行為の半数が、身内の窃盗事件の6割が、警察に通報されないために、データベースに登録されていないと言われている。このデータベースを用いた犯罪予測・検知技術システムを作ったとしても、その信頼性が疑問視される。
‐学習のための共有データセットが欧米主導で作られている。人を検索したさいにアジア系やアフリカ系の人たちの画像が表示されないことが指摘されたことがあります。
透明性(Transparency)や説明責任/答責性(Accountability)が開発側には必要。
共同開発の際に留意すべき特徴
・学習・推論の結果、生成される学習済みモデルの性質
・効果が契約締結時に不明瞭な場合が多いこと
・学習済みモデルの性質・効果が学習用データセットによって左右されること
・ノウハウの重要性が高いこと・生成物について再利用の需要が存在すること
2018:経済産業省は、AI・データ契約ガイドライン検討会を設置し、2018年に「AI・データの利用に関する契約ガイドライン」を策定、2019年に改訂版(ver.1.1)を公表。
開発プロセスを①アセスメント段階、②PoC段階、③開発段階、④追加学習段階に分けて、それぞれの段階で必要な契約を結んで行くと、試行錯誤を繰り返しながら納得できるモデルを生成するアプローチがしやすくなるとしている。
契約類型:「データ提供型」「データ創出型」「データ共用型」
データを加工・分析・学習させる
キーワード
アノテーション、匿名加工情報、カメラ画像利活用ガイドブック、ELSI、ライブラリ、Python、Docker、Jupyter
Notebook、 説明可能AI (XAI)、フィルターバブル、FAT、PoC
アノテーション:教師あり学習で正解データを作成する作業。作業者によって基準が異なり質に問題が。
匿名加工情報(個人情報保護法2条9項):特定の個人を識別することができないように個人情報を加工
経済産業省・総務省・IoT推進コンソーシアムは、カメラ画像を利活用する企業が配慮すべきことなどをまとめた「カメラ画像利活用ガイドブック」の第1版を2017年に、改訂版を2018年に公開。2019年には「事前告知・通知に関する参考事例集」を公表し、ベストプラクティスが模索されている。
ELSI(Ethical, Legal and Social Implications):倫理的・法的・社会的影響を一体のものとして検討しようとする試み
Pythonが一番多く使われている。Pythonには多種のライブラリ(様々な機能を簡単に使えるツール群)が揃っており、機械学習だけではなく、データの分析やWebアプリケーション開発など様々な事が可能。実装済みのコードがオープンソースとして多数公開されている。
環境を切り替えるツール:pyenvやvirtualenv、pipenv、Docker(仮想環境)。ライブラリのバージョンによりプログラムの動作が異なる可能性があるため、PJTごとにバージョンを揃える必要がある。
Pythonの開発環境:
‐テキストエディタを使う方式:VimやEmacs
‐IDE(統合開発環境)を使う方式、
‐Jupyter Notebookというブラウザ上でPythonコードを編集・実行し結果を管理する方式、
ブラックボックス問題:予測モデルや与えられるデータが複雑になりすぎると、どの変数がより多くシステムに使われていて重要であるかなどシステム全体の説明が非常に困難になること
XAI(Explainable AI, 説明可能AI):ブラックボックス問題に対処して説明責任を果たせるような開発
フィルターバブル現象:ニュースや動画に関する「おすすめ機能」について、これまでの嗜好に基づいて最適化するパーソナライズを強めすぎると、社会の分断を深める遠因になること。
FAT(Fairness, Accountability, and Transparency: 公平性・説明責任・透明性):プライバシーや公平性の問題について取り組む研究領域やコミュニティ
現場でのコンセプト検証(PoC):
データの加工とアルゴリズムの設計・調整を中心に進め、実際にAIモデルを作成。
もしアセスメントフェーズで十分にデータが蓄積されていないようであれば、実験に使う大量のデータの蓄積を行う。次に、ディープラーニングで利用できる形にデータを加工。学習可能なデータが準備できたら、モデルを学習するための学習コードを開発し、パラメータを調整して精度を検証します。ここで、データの網羅性の見積もりが不十分であった場合には、一度のデータ蓄積で十分なデータが得られないこともあります。精度を検証する中で、どの種の問題に対する精度が低いかを調査し、改めてデータを収集の上で再実験をするといったプロセスを何度か回すことで実用的な精度に近づけていく。
実装・運用・評価
キーワード
著作物、データベースの著作物、営業秘密、限定利用データ、オープンデータに関する運用除外、秘密管理、個人情報、GDPR、十分性制定、敵対的な攻撃(Adversarial attacks)、ディープフェイク、フェイクニュース、アルゴリズムバイアス、ステークホルダーのニーズ
収集・生成したデータや学習済みモデルは、一定の条件を満たせば、知的財産として保護される。
収集・生成したデータは、著作権法での保護は難しいが、営業秘密や限定提供データとして保護される余地がある。
著作物は、「思想・感情」を「創作的」に「表現」したものです(著作権法2条1項1号)。そのため、交通量や血圧などの数値データは、思想・感情の表現でもなく、創作的ともいえず、著作物に該当しない。
個々のデータが著作物にならなくても、そのデータの集合体が、全体として「データベースの著作物」として保護される可能性はある(同法12条の2第1項)。
つまり、学習用データセットは保護の対象になりえる。しかし、網羅的にデータを集めた場合(ビッグデータ)、データ選択の「創作性」が認められる可能性はあまりない。
営業秘密(不正競争防止法2条6項):非公知性、有用性、秘密管理性の要件を満たせば保護されるため、有望。しかし、例えば気温のデータは公知のものですから、非公知性を満たさない場合もあります。また、参加者の出入りが自由なコンソーシアムで共同管理しながら使う場合は、秘密管理性を満たさないかもしれない。
2018年の法改正により「限定提供データ」(同法2条7項)が追加:営業秘密の共同データの問題に対処。「オープンデータに関する適用除外」も設けられ、保護と利用のバランスが図られている。
学習済みモデルは、基本的には、プログラムとパラメータで構成されています。そのため、データを組み込んだプログラムとして位置付けられるのであれば、プログラムの著作物として保護される余地がある。もっとも、学習済みモデルからパラメータ部分だけ取り出した場合、そのパラメータが著作物として保護されるかは議論が分かれている。ディープラーニングを利用しており、パラメータがプログラムによって自動的に規定されるのであれば、創作的とはいえず、著作権法による保護を受けるのは難しい場合もある。
そこで、営業秘密としての保護を受けるべく、秘密管理をすることが考えられます。学習モデルをデバイスに組み込むのであれば、暗号化や難読化などの処理を施して、リバースエンジニアリングを困難にすることが多いです。
教師役の出力と同じになるように生徒用のAIのパラメータを調整していくことを繰り返すと、教師役の学習済みモデルのエッセンスが「蒸留」されて、生徒役に移ります。この場合、従来の知財の保護が及ばない可能性もありうると指摘されている。教師役のプログラムをコピーしているわけではないので、著作権法では「蒸留」を禁止できず、教師役のパラメータなど秘密を盗んだわけでもないので不正競争防止法の保護も及ばないおそれがある。
ここまで見てきたように、法制度上の知的財産権が認められないか、認められるか不明なものもあります。そこで、実務では、関係者間で契約を結び、権利の帰属、利用範囲、禁止行為などを明示することで、一定の解決を図ります。「AI・データの利用に関する契約ガイドライン」が重要なのもそのためです。
個人情報の取扱い:
利用目的をできる限り特定する(個人情報保護法15条1 項)。
当初予定されていなかった個人情報の取扱いの変更は原則として事前の本人の同意が必要(同法16条1項)。
利用目的を本人に通知し、または公表する必要(同法18条1項)。
個人データの漏えい防止などの安全管理措置を講じる必要(同法20条)、従業員の監督義務(同法21条)や委託先の監督義務(同法22条)、データ内容の正確性の確保などに関する努力義務(同法19条)
EU一般データ保護規則(GDPR):2018年5月施行。GDPRは日本に対しても域外適用されるため、EU向けにサービスを提供する日本企業も法的規制を受ける場合があるなお、2019年1月、日本とEUは相互に「個人データの移転を行うことができるだけの十分なデータ保護の水準を持つ」と合意(「十分性認定」)。
故人のデータ利用:実演家や著作者の死後における人格的利益の保護(著作権法60条・同法101条の3)、パブリシティ権(名前、肖像、画像、音声の商業的な利用)、死後のプライバシー(post-mortem privacy)のほか、死者に対する宗教的崇敬感情にも配慮
「敵対的な攻撃(adversarial attacks)」というAIモデルの認識を混乱させる方法も存在。各システムの稼働を監視した上で、通信相手の認証、アクセス制限、データの暗号化、データ改変の検知などが必要。
過去にはインターネット上で意見交換をするフォーラムを運営・管理する側が、「フォーラムに他者の名誉を毀損する発言があることを知りながら措置を取らなかった」として不作為による不法行為の成立が認められた裁判例があります(東京高判平成13年9月5日。いわゆる「ニフティサーブ事件」)。
クライシス・マネジメント
キーワード
コーポレートガバナンス、内部統制の更新、シリアス・ゲーム、炎上対策とダイバーシティ、AI
と安全保障・軍事技術、実施状況の公開、透明性レポート、よりどころとする原則や指針、Partnership on
AI、運用の改善やシステムの改修、次への開発と循環
クライシス・マネジメント(危機管理):危機を最小限に抑えて拡大を防ぐ「火消し」と、速やかに平常化と再発防止を目指す「復旧」が主眼。
透明性レポート
Partnership on AI(PAI): 2016年にAmazon、Google、Facebook、IBM、MicrosoftなどアメリカのIT企業を中心として組織。
「倫理的に調和された設計」(初版):学術団体のIEEEが2019年に公開
「アシロマAI原則」:技術開発における安全性の検証や透明性の確保など23項目からなる原則。
欧州委員会は:2019年4月に「信頼性を備えたAIのための倫理ガイドライン」、2020年2月には「AI白書」を公開
中国:2019年5月に「北京AI原則」を公開
アメリカ:2020年1月に民間部門におけるAI技術の開発等に関する10項目の原則を公開
日本:2019年に内閣府が「人間中心のAI社会原則」を公開
コメント
0 件のコメント :
コメントを投稿