一般物体認識分野で、府大生が世界一の認識精度を持つニューラルネットワークを開発
大阪府立大学工学研究科 電気・情報系専攻 知能メディア処理研究室の大学院生、山田 良博さん(博士前期課程2年)が、同研究室の岩村 雅一准教授、黄瀬 浩一教授と共に、一般物体認識の分野でこれまでと異なる新たな構造のニューラルネットワークを開発しました。開発したニューラルネットワークは一般物体認識の性能評価に用いられるCIFAR-10、CIFAR-100データセットを用いた実験で世界一の精度(2016年12月9日現在)を達成し、顔認証システムやカメラを用いた自動翻訳システム、歩行者や障害物をうまく認識しなければならない自動運転システムなど、さまざまな分野での活用が期待されます。
これらの成果は、2016年11月に採択されましたJSTの大型研究推進事業(CRESTプロジェクト)の研究を始めとした、様々な応用分野に適用していく予定です。
JSTの大型研究推進事業(CREST)に、本学研究者が関与する研究課題が採択(2016年度ニュース)
研究内容
今回提案した手法は、従来手法であるPyramidNet(図(a))とResDrop(図(b))を組み合わせたPyramidDrop(図(c))をベースにしています。PyramidNetはその名の通り、ニューラルネットワークの層が深くなるほど、各層に含まれる「チャネル数」が徐々に増加するピラミッド型をしています。ここでいう「チャネル」は画像の表現方法に関係しています。各チャネルは元画像を異なる方法で表現していて、チャネル数が増えるほど、豊富な情報で画像を表現することになります。ResDropは学習を効率的に行うために、学習時に一部のユニットを確率的に無視する「確率的な正則化」を用いる方法です。この組み合わせは比較的容易に思い付くもので、PyramidNetの著者も論文中で試みたことに言及していますが、我々はこの方法が大きな性能向上に結びつかないことを実験的に確認しています。
提案手法であるPyramidSepDrop(図(d))は、PyramidNetの構造の特殊性に着目して、新しく追加されたチャネルとそうでないチャネルを区別して、それぞれに確率的な正則化を適用することにしました。その結果、CIFAR-10のカテゴリ数を100に増やした、より難しいデータセットであるCIFAR-100において、従来手法であるPyramidNetに比べて2.19%の性能向上が実現できました。残念ながら、論文公開前に新たにResNeXtという手法が提案されたため、従来手法との差分は1.13%に縮小しましたが、それでも2016年12月9日時点で世界一の認識性能を達成できています。
従来手法と提案したニューラルネットワークに含まれるブロックの模式図
開発した大学院生 山田 良博さんのコメント
元々は趣味のような形で始めた研究だったのですが、この度は岩村先生、黄瀬先生ならびに研究室の皆様のお力添えで大きな結果を残すことが出来ました。この場を借りて多くの方に感謝の気持ちと御礼を申し上げます。
私は現在修士2年なのですが、所属する知能メディア処理研究室で博士後期課程に進学し、様々な経験を積み、将来は画像のみならず音声や言語を含めた統合的な情報処理システムを実現していきたいと考えています。これからも知能メディア処理研究室が目指す「欲しい情報が簡単に入手できる便利な社会」、「人のように身の回りの物を知覚できる知的な機械」への貢献を目指し、誠心誠意、邁進していく所存です。
なお、本研究成果は2016年12月5日に「Computing Research Repository」に公開されました。
論文タイトル:Deep Pyramidal Residual Networks with Separated Stochastic Depth
掲載論文(Cornell University Library「Computing Research Repository」)
プレスリリース全文(384KB)
お問合せ先
大阪府立大学 工学研究科准教授 岩村 雅一
Tel 072-254-9277
Eメール masa[at]cs.osakafu-u.ac.jp [at]の部分を@と差し替えてください。