02 调声是一门怎样的技术/艺术?

02 调声是一门怎样的技术/艺术?

23 人赞同了该文章

正文的头一篇我们先不谈具体指引,这里有必要从一个值得关注的问题引入。

在深入调声这门学问之前,我想任何有志于此的朋友们都应当对这个问题有自己的认知:调声本质上是技术还是艺术?我将就这个问题给出我自己的一种回答。既然我们提问的重点在于技术和艺术,就先将它一分为二成这两个层次来看。


首先谈技术。

知乎曾经有个问题叫“为什么我觉得调教就是靠肝,技术量很少?”[1],衮衮诸公已经就此问题展开了颇为丰富的讨论,其中甚至包括ilem这种宗师级别大佬所做的论述。有趣的是其中有从技术角度谈的也有从艺术角度谈的,但极少有人直接否认技术在调声中的重要性,无论出发点是前者还是后者。

技术本质上是一套系统化的、用于实现特定目标或解决特定问题的实践性知识、方法、技能和工具的总和。我们常说调声有着“赋予歌姬生命”的宏大性质,但套用那个圈外人的经典理解把它掰开揉碎了说其实还是是“让机器唱歌”,本质上是text to speech,你输入一些东西来产出另一些东西。[2]

原图by 电浆果茶

无论是旋钮拉杆还是包络线调参,参数都是可以量化的;你可能觉得画线好像不固定,但那本质上仍是数值。就我所知svp格式的工程文件就可以在文本编辑器里直接编辑,鼠标一抖在音高线上画出一个波折,同样只是一系列参数的具象体现。就这个定义而言调声显然是技术,并且不要忘记了,它是音乐制作的一个部分,如同编曲混音等等一样,并不是随随便便就能唱出来的歌(实话说甚至“唱歌”本身也是一门技术,呼吸也好发声也好共鸣咬字吐字等等也好,而在调声里它们以调整参数的形式,在歌姬身上具象化了)。

我的某个svp工程用记事本打开就是这样,可以看到你的所有调整几乎都是被量化在这里了的

它或许和修自行车这样的技术有一些不同,但本质上遵循同样的逻辑,甚至调声本身也可以是一种“修破自行车”(详见教主著名的ACE破自行车论断[3]。我在此有所感慨是因为前两天我就在修自行车,为了给车换个内胎我专门搜了很多教程,先是买了合适的备胎,又准备了各种工具,紧接着就是拆外胎和车轮等一系列步骤。到我费尽千辛万苦把新内胎气门芯卡进轮毂的眼里后,才发现外胎徒手又装不上去了,这时候我才知道可能还需要一个专门的撬胎棒。这套流程下来我反正明白了修自行车确实是一门需要学习的技术,至少它绝不是灵光一动就能让漏了气的破车恢复如新的。

调声则完全是同样的逻辑,倘若不遵从某些客观规律,你不可能随便划拉两下参数就让歌姬唱出你心目中的那个完美演唱。心里有对演唱的想法那一定是好的,但如何将它表现出来,这就是需要技术作为支持的了;并且对同一想法的表达可以经由多种形式(甚至不限于调声引擎之内而可以诉诸于后期音频处理)[4],至于哪种形式适合你所想要表达的演唱,那就只能一个个去试。我们后面会简单谈到调声技术中一种较为高阶的技巧“拆轨”,这就是为达成足够表现力而去不断尝试的一种具象体现,调校界的诸先驱们在这方面(以及其他任何可能提升演唱表现力的尝试上)做出了叹为观止的努力而亦秉承着精益求精的态度。当然现在只是提到这个概念一笔带过,但我们可以对前面的那个问题先给一个答案了:调校无论靠肝与否,至少技术量是不少的。

之前下载了跨海星尘的一个SV有参工程学习,人声似乎是19轨,下面有一部分截不下了,钢琴卷帘都收起来了。实际情况未必每一轨的所有调整都有其作用,但也可以看出做了多少的尝试,这种精益求精的态度实在值得学习。

简而言之,如果你缺乏对调声这门技术的掌握,那么你的技术力就只能支撑你走到并不高的表现层次了。你不能完全表达出你的心中所想,这显然是一件很遗憾的事。

我们应当明确调声本身必然是一门技术,且这门技术是需要掌握的。如果你有志于在其中取得更大的突破,那就更需要精益求精地去钻研,这一点同音乐制作中的任何工种都一样。


接着谈艺术。

再怎么说调声和修自行车还是有很大不同,我曾想过是否可以仿照《禅与摩托车维修艺术》写一本《调声与自行车维修艺术》,但前者讲的并不是修摩托车,字面意义上照猫画虎,就和从《钢铁是怎样炼成的》里学习炼钢技术一样滑稽。

修自行车是典型的、面向物理世界的功能性技术,而调校虚拟歌手则是技术与艺术深度交融的创作性技术。区别就在于前者没有艺术在其中,而后者有。我们要明确调声是音乐创作的一部分,就和你自己唱歌是一样的,只不过这里是由虚拟歌手替你唱。因为创作者的参与,机械的、技术性的拟合过程就被赋予独特的情感表达,这是调声的核心艺术价值,也即我们常说的“赋予虚拟歌声灵魂”。

那么我们如何完成这个“赋予灵魂”的过程?似乎还是要依靠技术。这没错。

初学调声的朋友们在搞清楚各种参数的作用或学会一种新的技法后,大多会进入一个“炫技”的阶段——具体体现为各种参数都动一动,各种方法都用一用,不管实际调这首歌用不用得到,总之是十八般武艺齐上阵,似乎不用这个技巧就显不出ta的能耐似的。被说中了也没什么,这几乎是大家都会有的阶段,包括我当初学会换采样等技巧以后有段时间也是疯魔一样地不断尝试,但结果时常不尽如人意。初期会出现的问题是“动了参数还没不动好听”,这一方面可能是你对技巧的掌握尚不够圆熟,但更可能的原因是,你还不知道怎么达成调参与演唱之间的对应关系。[5]

调声的艺术性在此就是沟通你的输入与歌姬输出之间的某种桥梁(的桥面)。在此我用一张自己画的示意图来说明几个概念之间的关系(请原谅我几乎没有什么制图审美和能力hhh):

用Windows自带画图制作的

如果我们将你目前所在的调声端/输入端作为左岸,演唱端/输出端作为你想要达到的右岸,那么就需要调声的过程来帮助你跨越两岸之间的阻碍。我们暂且将这个过程视作建造一座沟通两岸的桥梁,那么技术性可被称为其中的桥墩,没有技术支撑,你的想法就无法转化为现实;艺术性则是其中的桥面,只有沿着桥面你才知道怎么走,最后努力走到你想要的地方去,否则要么走错了要么就还是过不去,很简单的道理。

当然实际情况并不像我们这个简化模型这样简单,艺术性的问题在于其中许多东西是不好量化的。动手调一调(或者参与混音)就会知道人声完美对准小节线反而显得不够自然,人声的不完美同样是演唱的重要组成部分。瑞安说“很多时候采样声库听起来不够真实,就是因为真人的演唱更“脏”一点,包括但不限于气泡音、口水音、哑音、撕裂音、怒音、卡痰”[6],至少对虚拟歌手来说,这些部分采用得当不仅不会折损演唱的魅力,反而平添一种别样的真实。包括在后期修音时,某些时候我们也并不会把人声修得平滑如镜,类似于“我故意保留了一部分让你知道这是人声”,否则你就不知道你吃的是什么了(笑)。

而艺术性的另一种体现在于情绪。比方说某首歌的情绪是悲伤的,但引擎里并没有一个直接的“sadness”参数供你调整[7],不会一动拉杆一按空格就骤然天地与之同悲;后面经过技术层次的学习,你可能明白了大概对哪些参数进行调整可以营造出这种悲伤的效果,但那极大可能还不是你想要的;或者说即使已经是你觉得你能模拟到最好的,也还有很大的提升空间。桥面并不是一马平川。此方面的追求已不能简单停留在依靠技术提升的层次,两个字而言就是“多听”,更多是审美上的进步,或者说,唱商的培养。不过这里我不打算多讲,准备留到本系列第六篇再详述。

这里还不得不提一个概念即“风格”,众所周知AI时代以前受限于技术力,极致拟人算不上是中文VOCALOID黄金时代的那些传统之一;调校系大宗师们虽在此方面勉力追求,但还是有很多朋友喜欢带有某种独特“风格”的歌曲。在此也不好概述,比方说相当一部分朋友喜欢术力口的原因就是爱听“机械音”,当然并不止于此,拿我自己的话来说“旧VOCALOID的神调从来不只是被认为唱得像人而是还有很多别的难以言说的因素”,这个情况在AI时代有所改变,但在此不多提了。总之有朋友可能会有疑问:我想要制作的又不是“唱得像人”的音乐,而更注重传统虚拟歌声自有的那种独特魅力,这种情况下该如何培养自己的风格呢?是否要从艺术性的提升入手?

很遗憾,实际情况似乎没那么容易。在一定的积淀以前,你还很难去谈自己的所谓“风格”。显性而言有些东西似乎是很好模仿的,但终只得其皮不得其骨,因为模仿者只是根据成品音频来产出一些听起来很相似的东西——技术上ta不能复原真正的操作,艺术上ta不清楚各种操作的意义,哪怕ta拿到了有参工程的源文件也是如此(因为可能还有在此之外的其他操作,甚至顶尖调声者们的一首歌是由多个文件合并而成的,可以拆音可以拆轨那么也可以拆文件拆引擎嘛)。而倘若连模仿这一步都不能做到纯熟,属于自己的风格就更是妄言。“调得像人”是一个很好的评价,但甚至已经是一件比较简单的事情了,因为总有现成的样本可供参考;而更多只可意会不可言传的情感,那些频谱上难以一眼看出的摇摆抽搐,波形的跳动或许会反映一部分,却终归需要调声者自己的独特理解作为其中蕴涵。[8]在此之前,你显然需要有足够的调声能力来支撑你抒发出你的理解,而这就又回到技术性的那个层次了。


到这里大家基本也就弄明白我对这个大问题的回答了,技术与艺术在虚拟歌手调声中不是割裂的,而更像是相辅相成、共同服务于你的思考,最终凝结为你心中的歌声。最高境界的调声是技术手段完全服务于艺术表达,达到二者合并为一的状态。真正的高手理解参数之间如何相互影响、协同作用来塑造一个复杂的声音效果,它们共同构成调声的一个有机过程,这是我们创作出“直击灵魂的歌声”的唯一法门。

而说了这么多,实际也并不特别系统,只是长期积攒的一些杂乱思考。我提这个问题的目的实则并不是为了给出某种标准答案,而是希望有志于虚拟歌声制作的新人创作者们对其有一个简单的反思:调声是怎样的一门学问?我应当如何对待音乐制作流程中的这一部分?没关系,你的答案是什么无所谓。只要对这个问题有了清晰的认知,无论回答是怎样的,我觉得对你的创作之路,都会有很大的帮助。

在一些简要的理论探讨作为铺垫后,接下来我们即将进入调声学习的起步阶段。在这一阶段你就需要准备许多东西,但无需担心,我会尽可能解决你可能在起步前遇到的各种问题。

此篇写得其实比较仓促,因为类似理论总结的工作少有人做过;尤其是艺术性相关的论述我自觉还需要更多补充,不可避免地这篇文章还将在很长一段时间内不断面临修改。所以最后还是那句话,因我才疏学浅,此中必然会有极大量的偏颇与不足之处,还望观者多于评论区赐教,大家的指教也是我继续写下去的重要动力啊。

参考

  1. ^这实在是一个很经典的问题。委实说不止于此,知乎在古早时代就积累了大量关于调声学习的优秀论述,绝对值得萌新们深入学习。 https://www.zhihu.com/question/524541454
  2. ^这张图是目前对各种被冠以“虚拟歌声”的概念的很好解释,实在值得收藏。感谢果茶佬!
  3. ^原话:“这个ace用起来就像一辆不怎么好使但是快的很邪门的破自行车”。
  4. ^调校界目前已有很多朋友如此论述:调校是结果导向型的工种,为达成更好的演唱效果,是可以适当使用包括但不限于在DAW里进行后期处理等手段的。这方面的度还没有一个明确的共识,因为一旦使用了过多的奇技淫巧(比方说引入其他声库的元素甚至真人演唱作为补充),确实可能发展到假唱或其他动摇歌曲根本属性的地步。这里我比较赞同跨海星尘提到的他的三原则:“一是必须提升听感,二是必须保证歌姬的主导地位,三是增加了操作量与操作难度而非使人懒惰。”详见跨海的SV拆轨技巧浅谈2: https://www.bilibili.com/opus/732675164070739975?spm_id_from=333.1387.0.0
  5. ^这部分的论述在本系列第九篇会详细谈到。
  6. ^瑞安的调声杂货铺,其中每一条都是非常具有参考价值的经验,日后我会将我认为值得一观的教程做一个简单汇总。  https://www.bilibili.com/opus/784404510470570083?spm_id_from=333.1387.0.0
  7. ^这和SV等引擎中的声线并不能等同,比方说Bright声线拉高或许确实能让歌姬唱得更bright一点,但你大概不会承认这一定会是你想要的效果。如果你觉得到这里就不能再进一步,那也未必是坏事,换个角度想,这说明你的审美和技术力都又有新的上升空间了。
  8. ^这里需要谈另一点,我个人经验如下:原创曲比翻调曲难得多,因为没有任何的样例供你参考。
编辑于 2025-06-20 01:51・上海
写下你的评论...

12 条评论
默认
最新
宇宙大烧麦p
写得蛮好的,就是有点絮絮叨叨的,更像是一篇杂谈甚至回忆录[爱]
06-23 · 四川
宇宙大烧麦p
我是水母[可怜]
06-23 · 四川
ModAllen

感谢支持,以后还请多补充指正[感谢]

06-23 · 上海
作勤的球

好诶[抱抱]

06-21 · 四川
琴·九

你看,写这么专业果然没人看吧

06-19 · 四川
ModAllen
作者

其实我还觉得太不专业了[捂脸],至于有没有人看无所谓,能帮到一个人就很好了[惊喜]

06-19 · 上海
C6H4Cl2
海伊好可爱(
06-19 · 广东
想来知乎工作?请发送邮件到 jobs@zhihu.com
登录即可查看 超5亿 专业优质内容
超 5 千万创作者的优质提问、专业回答、深度文章和精彩视频尽在知乎。
登录即可查看 超5亿 专业优质内容
超 5 千万创作者的优质提问、专业回答、深度文章和精彩视频尽在知乎。