フルート＋スネア＝どんな音？ Googleが機械学習で音色を作るシンセサイザーを開発中

2018.03.19 18:45

この世に無い音をAIが生み出す。

芸術分野における機械学習の使い方を研究しているGoogleのプロジェクトチームMagentaが、「NSynth Super」なるシンセサイザーを開発しています。これは機械学習によって新しい音を生み出すシンセサイザーとのことで、ニューラルシンセサイザーを略してNSynthのようです。

Video: YouTube

NSynthはある音色のその音色たらしめるコアを学習し、音色ごとの特性を融合させて新しい音を生み出します。原理としては入力された音をエンコードしてその特徴を学習、足し合わせたコードを補間してデコードし、音としてアウトプットされるというものです。

こうしてつくられた音は単純に音を融合させたものではないそうで、たとえば上の動画の1:50頃ではフルートとスネアの特性を融合させた音が聞けます。フルートとスネアを同時に鳴らした音とは明らかに違う音になってますね。なんだかオーケストラヒットのようにも聞こえる？

もっとNSynthの動作がわかりやすい演奏動画もありまして。

Image: YouTube

右上にエレピ、左上にクリーンベース、右下にグランジベース、そして左下にはシタールの音がアサインされています。音色を変えながら多重録音でトラックを作っている様子がわかりますね。下のツマミは音の時間的変化を制御するADSRと、鳴らす波形の位置を調整するPositionになっているようです。

もちろんアサインする音が変われば波形の融合結果も変わるので、音のバリエーションはほぼ無限大。似たようなアプローチだとMacのDAWソフト「Logic Pro X」に付属するSculptureという物理モデルシンセがあって、これはウッド、ナイロン、ガラス、鉄の質感を座標的にコントロールできるようになっています。

180317nsynth_02 — Image: Logic Pro X via ヤマダユウス型

この中央の質感に相当する部分をいくらでも取り換えられるということですね。NSynthは物理モデルではないため単純な比較ではありませんが、たとえばピアノとマリンバを足したPiarimbaみたいな音も簡単に作れてしまうわけです。パーカッションをアサインすればライブ的にも面白そうだし、このアプローチ、絶対面白い。

シンセサイズ（合成）の新しいかたちが、機械学習の手助けによって生まれてくるかもしれません。NSynthの製品化などは不明ですが、ソースはGitHubで公開されています。

Image: YouTube, ヤマダユウス型
Source: NSynth Super, YouTube（1, 2）, GitHub
（ヤマダユウス型）