音MADの基礎:音声の解像度を知ろう
閉じる
閉じる

音MADの基礎:音声の解像度を知ろう

2020-02-07 21:00
    おはこんばんにちは、へのへのですYO☆


    昨年個人的に後輩音MAD作者のために作った配布資料:音MADの音声の基礎(自作発言さえしなければ再配布や引用等OKです)が合作やら生放送やらで割と好評でして、だったらもうちょっと多くの人にもうちょっと多くのことを学んでもらおうかいなと思い立ちこのブロマガを書いています。売-れんかいなー!
    へのへの流(?)シリーズのVST紹介だけでなく、このブロマガ自体も勉強の一助あるいはきっかけになることを祈りつつ、ではぃやぁりましょう!


    さて今回のテーマですが、題して『音声の解像度』です。具体的にはサンプリングレートbit深度
    音声の根幹をなす部分だけど意外と知らない人が多いんじゃないかと思ってます。分かりやすくするために個人的解釈を含めかなり噛み砕いて説明していますので多少間違ってるかもしれませんがご容赦ください。
    あ、解像度っていうのは俺が勝手に言ってるだけで意味的にはだいたいあってるけど程度のもんですので真に受けないでね。




    サンプリングレートとは

    まずは時間軸における解像度とも言うべきサンプリングレートについて。
    単位はHz(ヘルツ)で、単にレートとも言います。1秒あたり何回音声データをサンプリングするかを表します。

    とか言っても分からないと思いますので…
    映像を作る際にフレームレートっていうのを設定しますよね?あっちの方が恐らくなじみ深いと思うのでそれと比較しながら説明します。フレームレートが分からない人はググってね。(まぁ下で軽く説明するけど…)


    映像のフレームレートって、例えば30fpsっていう風に表現しますよね。fpsというのはFrames Per Second、すなわち1秒間あたりのフレーム数を表すもので、30fpsなら1秒につき30回フレームを再生しますよという意味。
    んーで、音声のサンプリングレートというのもそれと似たような考えで、Hzというのは1秒間あたりに何回その現象が起きていますよというのを表す単位です。音の周波数とか電気の周波数(関東関西で違うアレ)でおなじみですね。本来Hzというのは音・光・電気等の周波数を表す単位なんですがなぜかサンプリングレートでも使われてます。


    サンプリングというのは日本語だと標本抽出なんですが、サンプリングレートというのは1秒間に何回音声を電気信号に分解しているのか、という考え方で大丈夫です。
    我々が普通に聞く音声というのはアナログなもので、デジタルデータではそれを電気信号として細か~く分解して再現しているわけですね。ニコニコ動画等で使われるレートは44100Hzか48000Hzがほとんどです。つまり、1秒間に44100回か48000回分解・再構築した音声を使っているということ。

    ちなみに数年前に登場したハイレゾ音源というのは96000Hzとかです。解像度(分解能)が高い分より正確な音の移り変わりを表現でき、それだけ高音質なわけですね。映像でも30fpsと60fpsだと60fpsの方がより細かく移り変わってぬるぬる表現できますよね、あれと似たようなものだと思ってもらえれば。基本的に分解数が大きくなればなるほど滑らかで高音質になります。



    さて、なぜレートが44.1kHz(44100Hz)等なのかというと、理由は単純明快です。
    人間に聞こえる音の高さの範囲(可聴音域)っていうのは個人差こそあれおおよそ決まっていて、約20~20kHz(2万Hz)だと言われています。この音の周波数のHzも1秒間に何回○○するものという意味なので、20kHz以下のレートでは本来聞こえるはずの音が聞こえなくなってしまうことがあるんですね(例えば音の高さが440Hzの音を50Hzのレートで再現しようとしても不可能で、再現するためには最低でも440Hzのレートが必要です)。過不足なく聞かせる(音を再現する)ために余裕をもって可聴音域の約2倍の44.1kHz等になっているわけです。


    Aviutlの新規プロジェクト作成画面では音声レートを設定できますが、基本的にはいじらなくても大丈夫です。 むしろいじるな。
    映像編集の段階になって音声が変に聞こえる(低く聞こえるとかもにょるとか)場合、ここの設定がおかしくなっているかもしれませんので一度確認してみるといいでしょう。高い分には平気ですが低いと変になりますよ。
    Aviutl側で設定する場合、音声のレートと同じ設定にしておけばまず大丈夫です。ちなみに今のニコニコは48kHz推奨ですが、44.1kHzでも普通に上げられてそのまま再生されます。


    REAPERでももちろんレートの設定ができます。
    こちらも基本的にはあまり気にしなくて平気ですが、強いて言うなら素材と同じレートに設定するといいかと思います。44.1kHzと48kHzの違いは主に音楽業界化映像業界かの違いだそうで、CD音源は44.1kHz、DVDやBlu-ray音源は48kHzのことが多いです。オリジナルコンテンツ(一次創作)でネットに上がっている動画の設定はアップロード者によってまちまち。
    ちなみに48kHzより大きい値にしてもレンダリングした後で普通のプレーヤーで再生できなくなったりすることがあるので注意。
    ついでに言うと、REAPERでは編集中に聞いているレートとレンダリングする際のレートをそれぞれ別に設定することもできます。


    ごちゃごちゃ書きましたが、ごく一部の場合を除いて44.1kHzか48kHzかを悩む必要はありません。
    上のREAPERプロジェクト設定画像を見てもらえれば分かりますが、このふたつに限ってはレート的に他のものより割合差が少ないので聞いてもまずわかりませんからね。お好きな設定をどうぞ。






    bit深度とは

    さてお次は音量における解像度、bit深度です。これを説明するためにはちょっとだけ専門的で難しい話を先にしなくちゃなりませんお覚悟を。分かんなかったら無視していいです。\アハッ☆/


    まずbitについてざっくり説明。
    コンピュータというのは電気信号で動いてまして、電気のオンオフ(1か0か)で信号判断をしています。この最小単位をbit(ビット)といいます。bitは0と1しか表現できませんが、複数個並べることで2進数の表現をすることができます。(2進数が分からなかったらググってください)
    現代のコンピュータのほとんどは32bitや64bitなどの8bit(=1Byte)区切りで動くものです。8bitは8桁の2進数を表すことができ、表現できる幅は28= 256通りあります。


    さてここでようやくbit深度の話になります。
    音MAD作者にはおなじみだと思いますが、デジタルの音声データは左図のように、音量上限の0dbが上と下にあり真ん中が-∞dbの波形を扱います。上と下でそれぞれ音量を決めるのは位相に関係しますが今回は割愛。それぞれ仮に上を正、下を負の音量としましょう。
    レートの欄で先述の通り、アナログの音声をデジタルデータにしているので音量も細かく分解してあてはめることで表現しています。
    先ほどの8bitでは、256段階に音量を設定できます。正で256の半分の128段階、負でも同じく128段階といった具合です。これをbit深度と言います。


    音MADやDTMで扱う音声データは大抵は深度16bitです(投稿された際の不可逆圧縮音声が16bitに基づくことが多いため)。つまり216=65536の半分、32768段階の音量を正負それぞれに設定することができます。bit深度が大きいほどより細かい音量の変化、特に小さい音の表現を再現することができます。編集中は24bit等16bitより大きい深度で音声を扱うことが多いですが、最終的なレンダリングでは16bitで大丈夫です。8bitはファミコン音源とかのアレ。


    なお、映像・画像表現にもbit深度という概念がありますが音声のものとは似て非なるものですので気になる人は調べてみてください。






    ついでに

    サンプリングレートとbit深度についておおまかに説明しましたが分かったでしょうか。これらに付属することをちょっと書いておきます。


    ビットレート
    このふたつを使うことでビットレートというものを算出しています。有り体に言えば音声の情報量。
    非圧縮形式であるwavなら
    サンプリングレート:48kHz × 深度:16bit × 2ch(ステレオ) ≒ ビットレート:1500kbps といった感じ。
    圧縮形式のものはbit深度を考慮しないらしいのでよぐわがんない。


    合作に提出する際
    自分が音声まとめをする際には提出時の規格を必ず設定しています。大抵は44.1kHzかつ深度16bit。
    理由としては、聞きながら調整する際に基準が揃っている方が便利なため+α。

    特に深度は24bitや32bitで提出されるとそれだけ表現力が大きくなるので揃えにくくなります。情報量で言うと16bitが32bitになって2倍だけですが、表現量は差分の16bit → 216=65536倍違ってしまいます。24bitで提出されたとしても差分8bit → 28= 256倍も音量表現段階に差が付きます。マジでやめてね。

    サンプリングレートは気にするほどのことでもないんですが、コンバートというかリサンプリング(意味が分かんなかったらググれ)をするとそれだけ音割れの可能性が生まれてしまうからですね。この辺はトゥルーピークとかでググれば詳しい説明をしてる記事があると思います。ヘッドルームが十分確保してある音声ならもーまんたい。

    難しいことがわかんなかったら何も考えず規定通りの音声を提出しよう!

    広告
    コメントを書く
    コメントをするには、
    ログインして下さい。