藤本健のDigital Audio Laboratory
第645回
より“人間らしく”なった「VOCALOID4」。強化ポイントを解説
(2014/12/8 12:53)
既報の通り、VOCALOIDの第4世代となるシステム、VOCALOID4が12月下旬に発売される。年内に発売されるのはヤマハの3製品だが、来年以降クリプトン・フューチャー・メディアやAHS、インターネットほかサードパーティー各社も続々とVOCALOID4対応製品を出していくとのことだ。ここでは、VOCALOIDとはそもそもどんなソフトなのかということを紹介しつつ、VOCALOID4で何が変わったのかという点について見ていこう。
より人間らしくなりつつあるVOCALOID
いまや日本の音楽シーンにおいて重要な役割を担うまでになったVOCALOID。直近ではX JAPANのギタリストで1998年に他界したhideの未発表曲をVOCALOIDを用いて完成させたアルバム「子 ギャル」が12月10日にリリースされるなど、従来では考えられなかったようなことも実現できるようになってきている。
そのVOCALOIDが最初にリリースされたのは2003年2月のこと。PCで音符と歌詞を入力すると歌声を合成してくれるという画期的なソフトではあったが、当初はあまり注目されなかった。しかし2007年、第2世代となるVOCALOID2が発表されるとともに、クリプトン・フューチャー・メディアから初音ミクがリリースされたことで、一気に注目を集めるようになった。そして初音ミクなどを使った数多くのオリジナル作品が発表され、ヒットしていったのは誰もが知っているところだろう。
ちなみに、こうしたVOCALOID作品の多くは初音ミクやMegpoid、結月ゆかりなどのVOCALOIDキャラクタが歌って踊る、歌とCGとの組み合わせで構成されているが、VOCALOIDというアプリケーションが担当するのはあくまでも歌声のみ。よくVOCALOIDを購入すれば、CGまで含めた作品が簡単に作れると思っている人がいるようだが、これでできるのは歌声だけで、ギターやベースやキーボード、ドラムなどのバックパートも作ることはできないのは大きな注意点だ。
このVOCALOIDの歌声は、ゼロから機械で作り出しているというわけではなく、人の歌声をサンプリングしたものを利用している。つまりVOCALOIDはサンプリングした声の主、つまり、いわゆる「中の人」の歌声を再現するシステムとなっているのだが、サンプラーとは違った仕組みとなっているのがVOCALOIDの特徴。周波数帯域を細かく区切って歌声を分析・再合成する手法をとっているからこそ、声質を保ったまま広い音域の歌声を実現できるのだ。この辺の基本的な原理などについては、VOCALOIDの開発者であるヤマハの剣持秀紀氏と筆者による共著書籍である「ボーカロイド技術論」で詳しく解説しているので、ぜひそちらをご覧いただければと思う。
そのVOCALOID2から4年経った2011年、現行のバージョンであるVOCALOID3が発表された。これも基本的な原理はVOCALOID2を踏襲しているが、VOCALOID2まではDi-phoneと呼ばれる2つの音素片の組み合わせ、つまり「子音+母音」や「母音+子音」で歌声データベースを構成していたのに対し、VOCALOID3ではTri-Phoneと呼ばれる3つの音素の組み合わせ、具体的には「母音」+「子音」+「母音」もデータベース内で扱われるようになった。これによって歌声が非常に滑らかになり、より人間らしい歌声に近づいている。といってもVOCALOIDの歌声をよく聴けば、「合成だな」と思うのも事実だが、これが外国語になると結構判別が難しくなってくるのはユニークなところ。現在VOCALOIDは日本語だけでなく、英語、中国語、スペイン語、韓国語の歌声ライブラリも出ており、日本語以外の言語での歌声を聴くと、なかなかわからないほど。とくにスペイン語あたりになると、もう現地の人が歌っているとしか思えないほどなので、機会があればぜひ聴いてみてほしい。反対に海外の人が日本語のVOCALOIDの歌声を聴くと、人が歌っているとしか思えないらしく、一様に驚く反応を見せてくれる。
新機能の「グロウル」と「クロスシンセシス」、「ピッチレンダリング」
さて、そんなVOCALOIDが今回、VOCALOID4となったわけだが、基本的なシステム構成はVOCALOID3のものを引き継いでいる。つまり、歌声を合成するためには歌声合成エンジンであり歌声入力ソフトであるVOCALOID Editorと、歌声のデータベースが詰まった歌声ライブラリの2つが必要となるのだ。そのVOCALOID Editorは2製品ある。ひとつはWindows上でスタンドアロンで動作する「VOCALID4 Editor」、もう一つはWindowsとMacのハイブリッド対応であり、Cubaseのアドオンソフトとして動作する「VOCALOID4 Editor for Cubase」だ。ちなみに「Cubase」はヤマハ傘下にあるドイツのSteinberg社が開発するDAW(Digital Audio Workstation)。そのCubaseの一機能として完全に融合する形になっている。
一方、歌声ライブラリとしては「VY1V4」という女性の歌声のものがヤマハからリリースされるが、来年2月下旬にはクリプトン・フューチャー・メディアから「巡音ルカV4X」がリリースされるほか、AHSから「結月ゆかり 穏」、「ボカロ小学生 歌愛ゆき」、「ボカロ先生 氷山キヨテル」、「SF-A2 開発コード miki」、「猫村いろは」といった製品がリリースされることが発表されている。これらもVOCALOID4 EditorかVOCALOID4 Editor for Cubaseを使って操作していくことが基本となる。
さて、ではVOCALOID4で何が変わったのか? 基本的な合成エンジンは変わっていないし、これまでのVOCALOID3の歌声ライブラリもそのまま使えてしまう。たとえば初音ミクV3がインストールされていれば、それがそのまま利用でき、とくにコンバートする必要もない。またVOCALOID4 Editorがインストールされているところに、新たにMegpoid V3や結月ゆかり、東北ずん子をインストールしても、問題なく使えてしまうのだ。
この際、歌声の質が向上するわけでもないようなのだが、ここには大きく3つの機能が追加されている。1つはグロウルへの対応だ。グロウルとは演歌でこぶしを回す際の歌い回しであったり、ゴスペルにおける唸るような歌声だ。これは従来のVOCALOIDではどうしても合成することができず、エディットをしてもなかなか表現できなかったのだが、VOCALOID4ではGWLというパラメータが追加され、この値を上げていくと(範囲は0〜127)、まさにガラガラ声のように変化していく。ただし、このGWLパラメータが使えるのはあくまでもVOCALOID4の歌声ライブラリのみ。つまりVY1V4はグロウルに対応しているが、初音ミクV3に適用させても、まったく反応しない。というのもVOCALOID4の歌声ライブラリにはグロウルの成分がデータとして入っているからであり、これがないと使えないのだ。
2つ目の機能はクロスシンセシス機能というもので、歌声をモーフィングするというものだ。たとえばVY1V4にはNatural、Normal、Power、Softという4種類の歌声が存在している。同様に初音ミクV3ならORIGINAL、SWEET、DARK、SOFT、SOLID、Megpoid V3ならNative、Adult、Power、Sweet、Whisperといったものがあり、どれを選ぶかによって、普通の歌声だったり、パワフルになったり、ささやくような感じになったり……と違った歌い方をするのだ。ただ従来はこれを単純に切り替えて使うしかなかった。つまりAメロ、BメロではNormalで歌い、サビのところでPowerに切り替える……といった手法である。しかし、今回のVOCALOID4では、徐々に切り替えて行なったり、その中間的な歌声で歌わせるといったことが可能になっているのだ。方法としては、まずシンガーエディターを使ってあらかじめ元の歌声であるプライマリと、変化させた先であるセカンダリの歌声を設定しておくのだ。そして、歌わせる際に、どの程度にするのかをパラメータ設定していくのだ。ただし、このプライマリ、セカンダリに設定できるのはあくまでも同じグループ内。つまりVY1V4のNormalとPower、初音ミクV3のSWEETとSOFTという設定は可能だが、プライマリがVY1V4のNormalでセカンダリが初音ミクV3のSOLIDというような異なるライブラリというようなことはできない。
また、クロスシンセシスの設定で完全にセカンダリの歌声にしても、それがセカンダリの歌声ライブラリと同じ歌声になるというわけではない。というのもクロスシンセシスではプライマリの歌声の周波数成分を変化させてセカンダリに近づけていくという手法をとっているため、周波数成分の構成はセカンダリに設定したものと同じになるものの、それ以外のデータはプライマリに設定した歌声のままだからだ。この辺をどう使うかは、いろいろ試しながら行なってみるとよさそうだ。
そして3つ目は、歌声そのものを変化させるものではないが、歌声のピッチの変化やビブラートのかかり具合をグラフで描画するピッチレンダリング機能が搭載された。前述のとおり、VOCALOIDでは人の歌声をサンプリングしたデータを利用して歌声を合成しているのだが、単純にサンプリングデータをプレイバックしているわけではない。周波数帯域を調整しながら合成すると同時に、音のピッチを人間らしい発音になるように調整しているのだ。具体的にいうと、歌い始めのところでは、ピッチが持ち上がるような変化をしていたり、伸ばすところでは自然にビブラートがかかるといった具合。ここは自動的に行なわれるので、その動作が分かりにくいため、このピッチレンダリング機能によって、視覚的に確認できるようにしているのだ。ただし、ここではあくまでも表示するだけで、この波形自身をいじることはできない。これを調整したい場合は、やはり新たに搭載された「エクスプレッションピッチをPITに変換」、「ビブラートピッチをPITに変換」という機能を用いて、ピッチ変化をPITパラメータに転写することでいじれるようになっている。
ボカキューはリアルタイム発音対応。最新のCubase Pro 8でも動作
ここまで説明した一連の機能はVOCALOID4 EditorでもVOCALOID4 Editor for Cubase(通称ボカキュー)でもまったく同じように操作できるのだが、VOCALOID4 Editor for CubaseにはVOCALOID4 Editorではできない機能なども備えているので、少し補足していこう。
まず製品構成だが、VOCALOID4 Editor for CubaseのパッケージにはVOCALOID4 Editor for Cubaseのほかに、DAWそのものであるCubase AI 7がバンドルされている。Cubase AI 7はトラック数や同時に利用できるプラグインの数に制限があるものの、非常に強力な機能を装備したDAWで、Cubase 7のエントリー版という位置づけ。そのCubase AI 7とVOCALOID4 Editor for Cubaseを同時にインストールするとCubase AI 7の一機能としてVOCALOID4 Editorが追加される格好なのだ。このVOCALOID4 Editor for Cubaseも価格的にはVOCALOID4 Editorと同じなので、トータルで考えればCubase AI 7がバンドルされたVOCALOID4 Editor for Cubaseのほうが圧倒的に有利な製品となっている。
また機能的には今回のバージョンになって、遅延のないリアルタイム発音も可能にしている。とはいえ、この場合は歌詞の指定はできず、「あーあーあー」とか「ラーラーラー」のように同じ文字を繰り返すだけで、設定できるのも「あ行」か「ら行」に限られている。
一方、このVOCALOID4 Editor for Cubaseが利用できるのはCubase 7シリーズとして発表され、当初の説明ではCubase AI 7のほか、Cubase 7.5、Cubase Aritst 7.5などとされていた。しかし12月3日にSteinbergからCubaseの新バージョンであるCubase Pro 8およびCubase Artist 8のそれぞれが発表・発売されたので、これらが使えるのか試してみた。結論からいうと、まったく問題なく使うことができ、ヤマハに確認したところ、完全対応しているとのことだった。ちなみに、Windows 8.1のマシンにCubase Pro 8およびCubase AI 7の両方が入っているマシンにVOCALOID4 Editor for Cubaseをインストールしてみたのだが、とくに何の指定もすることもなく、双方で使うことができるようになっていた。
以上、VOCALOID4について解説してみたが、いかがだっただろうか? 今後もVOCALOIDはさらに機能、性能を向上させて、より人間の歌声に近づけていくとのことなので、この先どうなっていくのかは非常に気になるところだ。
| Amazonで購入 | |
|---|---|
| VOCALOID4 Editor
|
VOCALOID4 Editor for Cubase
|
| Amazonで購入 | ||
|---|---|---|
| VOCALOID4 Library VY1V4
|
巡音ルカ V4
|
ボーカロイド技術論
〜歌声合成の基礎と その仕組み〜 |
URL
バックナンバー
- より“人間らしく”なった「VOCALOID4」。強化ポイントを解説 [2014/12/08]
- Android 5.0アップデートでついにUSB Audio Class対応 一歩前進も、ハイレゾはネイティブ出力できない?[2014/12/01]
- 約4千円の手のひらコンピュータ「Raspberry Pi」でハイレゾ音楽再生に挑戦 [2014/11/17]
- ズームのThunderboltオーディオ新機種「TAC-2R」登場 各DAWで快適に動作。Yosemiteではノイズ問題も[2014/11/10]
- スマホからWi-Fi操作できるPCMレコーダ。TASCAM「DR-44WL」で録音した[2014/10/27]
- ローランドからDSD対応USBオーディオ「Mobile UA」。高音質の秘密「S1LKi」とは? [2014/10/20]
- レコーディングにおける「ハイレゾ」と「いい音」 牧村憲一氏「音学校」でオノセイゲン氏が講義[2014/10/06]
- 音質重視のTASCAM USBオーディオ2機種をチェック 高音質マイクプリ搭載、ドライバ変更。約18,000円のUS-2x2など[2014/09/29]
- iPhone 6 PlusとiOS 8のハイレゾ/DTM関連まとめ。iOS 8適用はしばらく様子見?[2014/09/22]
- iPhoneが高性能リニアPCMレコーダに変身XYマイク搭載「Zoom iQ6」とMSマイク「iQ7」を試す[2014/09/08]
- コンパクトなDTM環境が作れるALESISのUSBオーディオ、「iO Hub」などをチェック [2014/09/01]
- 「人型ロボットのダンス」や「声の年齢制御」など、音楽情報処理の最先端をレポート [2014/08/25]
- 曲のテンポや音程を変えるアプリ「PSOFT Audio Player」。クマゼミがミンミンゼミに?[2014/08/18]
- USB 3.0でオーディオインターフェイスはどう変わる? RME「MADIface XT」を試す[2014/08/04]
- オノセイゲン氏が語る「レコーディングの今」と「ハイレゾ」。東大でライブ&トーク[2014/07/28]
- iPadオーディオI/Fにもなる着脱式マイクのPCMレコーダ。ズーム「H5」を試す[2014/07/14]
- 寝ながら聴ける“枕型スピーカー”の仕組みを聞く 元ローランド・大和氏が製品化。帽子型スピーカーも!?[2014/07/07]
- DSD音楽制作の新たな取り組みを解説「1ビット研究会」 「音場の缶詰」を目指す技術も[2014/06/30]
- USB DAC搭載スピーカー「ECLIPSE TD-M1」と“タイムドメイン”への疑問をぶつけた [2014/06/23]
- プロ/PCオーディオ注目の「Fireface 802」。10年ぶり後継機の実力は? [2014/06/16]