3次元空間を自在に解釈し、想像するディープラーニング技術が登場した。
何らかの物体が置いてある部屋などの空間について、任意の地点の座標を指定すると、そこから見える光景をディープニューラルネット(DNN)が正確に“想像”。まるでカメラで撮影したかのように画像として生成する技術「neural rendering」である(図1)。
文字通り、CG(computer graphics)のレンダリング(rendering)に相当するような処理を、3次元モデルの作成などをすることなく、機械学習によって実現する技術といえる。2次元画像の情報のみから、その空間の3次元的な構造を類推する技術である。
米グーグル傘下の英DeepMind社がもともと開発した技術をベースに、今回、米University of California Berkeley(UCB)がロボット向けの利用を想定して改良を加え、大幅な性能向上を実現した。
このneural rendering技術は現時点では学習に使うのも、生成するのもシミュレータ画像を対象にしているが、今後、実画像でも同様のことを実現する道が開けたといえる。2019年12月に開催予定の機械学習分野のトップカンファレンス「NeurIPS 2019」で、UCBが本技術について発表予定である。
neural rendering技術では、あらかじめDNNにさまざまなシーンの画像を学習させておく。学習の際は、個々の画像を撮影したカメラの自己位置についても同時に入れる。
すると、「この地点からはこう見える」「物体の影はこのように映る」といった3次元空間の見え方を、照明条件なども含めてDNNが学習するようになる。