機械学習研究の現状とこれから

2018年5月17日
機械学習研究の
現状とこれから
機械学習研究の
現状とこれから
理化学研究所革新知能統合研究センター
東京大学大学院新領域創成科学研究科
杉山将
日本ソフトウェア科学会機械学習工学研究会

2
自己紹介
現職：
 理化学研究所・センター長：研究者とともに
 東京大学・教授：学生とともに
 企業・技術顧問：エンジニアとともに
専門分野：
 機械学習の理論・アルゴリズム開発
 機械学習の実世界応用
（音声，画像，言語，脳...

機械学習の国際会議の動向
 参加者数が激増：
 ICML: International Conference on Machine Learning
 NIPS: Neural Information Processing Systems...

ICML2016の採択論文の分布 4
アメリカ
企業
.com
フランス
イギリス
イスラエル
スイス日本（１０件≒３％）
ドイツカナダ
• アメリカ一強
（多数の中・韓・印・欧を含む）
• 日本人は非常に少ない
• 中国が猛烈な勢いで追い...

機械学習研究の現状と課題
現状の機械学習によって，
 音声認識，画像理解，言語翻訳
などはヒトと同等以上の性能を達成
しかし，更なる飛躍には課題がある：
 機械学習技術の研究開発に多大なコスト：
世界中の企業が研究者・技術者を青田買い
...

講演の流れ
1. 機械学習技術の研究開発に多大なコスト
2. ビッグデータの収集に多大なコスト
3. まとめと今後の展望
6

7
最も汎用的なアプローチ
機械学習には様々なタスクがある
データを生成する規則（確率分布）を推定すれば，
あらゆる機械学習タスクが解決できる！
 例：各クラスのデータの
生成分布がわかれば，
パターン認識ができる
生成的アプローチとよ...

各タスクに特化したアプローチ
しかし，確率分布の推定は困難であるため，
生成モデル推定に基づくアプローチによって，
必ずしも高い学習精度が得られるとは限らない
確率分布の推定を行わず，各タスクを直接解く
 例：サポートベクトルマシンでは，...

各タスクに特化したアプローチ
各タスクに特化したアルゴリズムを
開発した方が，原理的には
生成的アプローチよりも性能が良い
しかし，様々なタスクに対して個別に
研究開発を行うのは大変：
 アルゴリズム考案
 理論的性能評価
 高速かつ...

中間的なアプローチ
あるクラスのタスク群に対して，研究開発を行う
 汎用性と有効性のトレードオフを取る
10
生成的アプローチ中間アプローチタスク特化アプローチ

11
確率密度比に基づく機械学習
多くの機械学習タスク群は
複数の確率分布を含む
しかし，これらのタスクを解くのに，それぞれ
の確率分布そのものは必要ない
確率密度関数の比が分かれば十分である
各確率分布は推定せず，
密度比を直接推定す...

12
最小二乗密度比適合
データ：，
真の密度比との二乗誤差を最小にする
ように密度比モデルを学習：
Kanamori, Hido & Sugiyama (JMLR2009)
r(x)
min
®
J(®)
J(®) =
1
2
r®...

ここまでのまとめ
密度比は，単純な最小二乗法で最適推定できる
多くの学習タスクが実は最小二乗法で解ける：
 重点サンプリング：
 ダイバージェンス推定：
 相互情報量推定：
 条件付き確率推定：
各機械学習タスクを直接解くのではな...

講演の流れ
1. 機械学習技術の研究開発に多大なコスト：
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト：
限られた情報からの機械学習
14

ビッグデータを用いた機械学習
画像認識，音声認識，機械翻訳などで，
人間と同等かそれ以上の性能を達成
しかし，応用分野によっては，
教師付きビッグデータを簡単に取れない
 医療データ解析
 インフラの管理
 自然災害の防災・減災
 ...

２クラスの教師付き分類
大量のラベル付きデータを用いれば，
精度良く分類境界が学習できる
ラベル付きデータ数に対して，分離境界
の推定誤差はの速さで減っていく
16
正
負
分離境界

教師なし分類 17
ラベル付きデータの収集にはコストがかかるため，
容易に入手できるラベルなしデータを用いる
教師なし分類はただのクラスタリングに過ぎない
データがクラス毎にクラスタに分かれていないと，
正しく分類できない

半教師付き分類
大量のラベルなしデータに加えて，
少量のラベル付きデータを利用
結局，教師なし分類と同じくクラスタリングする
データがクラス毎にクラスタに分かれていないと，
正しく分類できない
18
正
負
ラベルなし

分類問題の分類 19
高精度でラベル付コストの低い分類手法
が重要！
ラベルあり
（教師付き学習）
ラベルなし
（教師なし学習）
ラベルありとなし
（半教師付き学習）
ラ
ベ
ル
付
け
コ
ス
ト
高
低学習の精度
高
高低
高精度
＆
低...

新手法１：正例とラベルなし
データからの分類
20
負例が全くなくても，正例とラベルなしデータ
だけから，最適な分類ができる
例：
 クリック vs. 非クリック
 友達 vs. 非友達
正
ラベルなし
（正と負の混合）
du Ples...

新手法２：半教師付き分類 21
「正例とラベルなしデータからの分類」は最適
それに「正例と負例からの分類」を組み合わせ
ても最適
正
負
ラベルなし
Sakai, du Plessis, Niu & Sugiyama (ICML2017)
...

新手法３：正信頼度からの分類
正クラスのデータしか取れない：
 他社のデータは取れず自社のデータしか取れない
 成功例は入手できても失敗例は入手できない
信頼度さえ分かれば，
最適な分類ができる
22
Ishida, Niu & Sug...

新手法４：類似データ対からの分類
類似データ対：
 同じクラスに属する標本対
 しかしクラスはわからない
財産，宗教，政治など，デリケートな質問に対して，
 明示的に趣向を回答するのははばかられる
 「あの人と同じ」であれば回答しや...

新手法５：教師なし分類 24
クラスタ構造がない場合でも，クラス比の異なる
ラベルなしデータが２セットあれば，教師付き
学習と同じ収束率を達成可能
クラス比
=3:7
クラス比
=7:3
du Plessis, Niu & Sugiyama ...

新手法６：補ラベルからの分類
多クラスの訓練データのラベル付けは高コスト
 多数の候補クラスから正しいものを選ぶ必要がある
補ラベル：
 パターンが属さないクラスの
ラベル（補ラベル）を与える
 補ラベルをつけるのは低コスト
「間違...

弱教師付き学習のまとめ
低ラベル付けコストで
高精度な機械学習
手法が有用！
26
UU, PU, PNU, SU,
Pconf, Comp…
あらゆるデータを
有効活用！
ラベルあり
（教師付き学習）
ラベルなし
（教師なし学習）
ラベルあ...

流行りの深層学習との関係は？
深層学習＝深層モデルを使った機械学習
学習法の研究はモデルの研究と直交！
27
線形カーネル深層 …
モデル
加法
教師付き学習
教師なし学習
…
強化学習
学習法
新しい学習法を作れば，
最新の深層モデル...

講演の流れ
1. 機械学習技術の研究開発に多大なコスト：
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト：
限られた情報からの機械学習
28

今後の展望
 人工知能（過去）：
 １次ブーム（１９６０年頃）：
記号処理，論理推論
 ２次ブーム（１９８０年頃）：
エキスパートシステム
 ニューラルネット（過去）：
 １次ブーム（１９６０年頃）：
パーセプトロン（１層）
 ２...

機械学習研究の現状とこれから

MLSE

機械学習研究の現状とこれから