DDR: Deep Diminished Realityの実現に向けた一検討

633 views

Published on

第40回コンピュータビジョン勉強会@関東「AR/VRを支える技術」発表資料。
ディープラーニングによるDR (Diminished Reality)の実現について検討しています。

Published in: Technology

DDR: Deep Diminished Realityの実現に向けた一検討

  1. 1. DDR: Deep Diminished Reality の実現に向けた一検討 第40回CV勉強会「AR/VRを支える技術」 2017/6/10 進矢陽介 2017/6/15 説明・紹介論文追加
  2. 2. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~ デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  3. 3. 前提知識:DR (Diminished Reality, 隠消現実感) 説明文・図引用元: [森ら, 日本バーチャルリアリティ学会論文誌2011] • 「視覚的に不要な物体を隠蔽・消去, もしくは障害となる物体を透過させる技術」 • 下図の場合、ポストが存在しないように 見せかける技術
  4. 4. 背景:ARと変身願望 Snapchat, SNOW, Instagram ・顔検出・顔器官検出による けもの化機能 ・Viola-Jones世代を中心に 億単位のユーザー ②美少女化願望 ①けもの化願望 機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~ http://qiita.com/Hi-king/items/8d36d9029ad1203aac55 • 私は貝になりたい • けものになりたい • 早く人間になりたい • 風になりたい • チーズ蒸しパンになりたい • 美少女になりたい • 来世は東京のイケメン男子に してくださーい! SNOW https://itunes.apple.com/jp/app/id1022267439 人間が持つ様々な変身願望 ・顔検出・似顔絵生成GAN による美少女化 ・2020年に向けて さらなる研究の必要性 課題:顔に限定され、全身を変換できない 全身の姿勢を推定する技術が必要
  5. 5. 人物姿勢推定 OpenPosehttps://github.com/CMU-Perceptual-Computing-Lab/openpose [Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017] 多人数の2D姿勢を約10fpsで推定 手と顔のkeypointも合わせて推定 MMD (MikuMikuDance) 等の 3Dモデル 関節等を合わせて 重畳表示 VNect http://gvv.mpi-inf.mpg.de/projects/VNect/ [Dushyant Mehta+, SIGGRAPH2017] 1人の3D姿勢を30fpsで推定 https://learnmmd.com/http:/learnmmd.com/quic k-start-basics-of-mmd-to-get-you-started/
  6. 6. 人物姿勢推定と重畳表示 なんかでかい 重畳表示 BodySLAM https://wrnch.com/ ・wrnch社の人物姿勢推定エンジンで、ARに利用可能 ・重畳する物体は鎧(通常の服より大きい) 重畳する物体の方が小さいと破綻すると推測される ©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/ 重畳する物体 重畳される物体 はみ出る 課題: 大は小を兼ねない 元画像中の人物を消去する技術が必要 発生する現象
  7. 7. 画像補完 Globally and Locally Consistent Image Completion [Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/ 課題:マスクの入力が必要 マスクを推定する技術が必要
  8. 8. Instance segmentation Mask R-CNN [Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870
  9. 9. DDR: Deep Diminished Reality • Instance segmentationと画像補完により 単眼カメラでのDR (Diminished Reality)が実現される • 学習済みモデルの組み合わせで実行可能になるはず 課題: 遅い (解像度によるが約3fps) 一つのネットワークにまとめ、 専用に学習した方が良い 図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]
  10. 10. 人物を3Dモデルに変換する場合の構成案 人物姿勢推定 Instance segmentation 画像補完 重畳表示 光学的整合性 Discriminator*1 陰影生成*1 画像補完 Discriminator *1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。 Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/ https://www.youtube.com/ watch?v=OWSpFm5LP3I 画像引用元は他ページをご参照下さい。
  11. 11. 課題:どうやってマルチタスク学習を行うか • データセット準備、学習、評価、実験環境再現が大変なため、 Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、 元画像の人物を消去した上で、 MMDを重畳表示するのに都合の良いデータセットがあると良い • 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、 メモリ消費量は抑えられる手法があると良い
  12. 12. SURREAL Dataset Learning from Synthetic Humans [Gül Varol+, CVPR2017] http://www.di.ens.fr/willow/research/surreal/
  13. 13. UberNet Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory [Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132 cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24
  14. 14. まとめ • ディープラーニング技術の進展により、 単眼カメラでのDR (Diminished Reality)の実現が近づいている • 高精度化が重要なのは言うまでもないが、 AR関連の応用には、何よりも速さが足りない (各技術はこの1年で著しく高速化したが、更なる高速化が必要)
  15. 15. 補足:応用上の高速化 • ディープでなくても良い部分を置き換える • フレームごとに別のGPUで処理(遅延が気にならない場合) • キーフレームのみ重い演算を行う • 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去(対象が動く場合) • アプリケーションに応じて、解像度を下げる、処理対象を限定する
  16. 16. 補足:CNN自体の高速化 • Depthwise Separable Convolution*1 • 蒸留 (Distillation)*2 • その他モデル圧縮*3 *1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。 - Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357 - ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431 - Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012 - MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861 - SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059 一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。 - Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載 - Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76 - 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/ そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。 (Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。) *2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。 画像補完等で有効かは要調査、要検証。 *3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。

×