大家平时在商店里买的唱片或者在网上下载的音乐,通常是分别录音后,由混音师进行一系列处理,由母带师做整体调整之后才流向市场。这些步骤对音乐的质量影响很大,又需要一定的专业知识和经验才能完成。这就为普通大众把自己的演奏录音然后做出一定效果的音乐造成了门槛。如何减轻混音和母带的门槛,乃至把整个过程自动化,是我们的一大课题。近十多年来一些大学和研究机关在这方面做了不少研究和尝试。它们在某些领域收到了不错的效果,但由于混音和母带整个过程比较复杂,我个人感觉这个研究领域还处于黎明期。
没有多少经验和成果可以借鉴,反过来说,也就可以做各种尝试。可以尝试用CNN,LSTM,Wavenet等神经网的模型直接玩声音转换,也可以应用信号处理的各种技术,尝试揭开混音和母带这个神秘过程的面纱,还可以双管齐下,结合机器学习和信号处理,等等等等。
其间工作组有幸向顶级的混音师和母带师学习,实际到他们工作的现场体验原声带和混音后的声音的不同,通过实际对比同一歌曲的不同母带师的制作,体验母带制作之中的个性与普遍性。专家们向我们介绍了他们对混音和母带的认识和思维方式,他们在工作中遇到的问题和烦恼,以及他们对自己工作的追求和梦想。这些改变了我对音乐制作的认识,同时也感受到这个领域内含的庞大潜力。人工智能不仅可以将一些已存的业务自动化,更多的,还可以帮助人们去尝试从前无法想象的事情,去追求没有人实现过的事情。
关于具体的业务内容,由于涉及到公司的利益。这里简单介绍一个我最近遇到的论文吧。先说结论,现阶段它对我们的业务没什么帮助,但调查过程还是收获不少的。论文:
A Universal Music Translation Network
https://arxiv.org/abs/1805.07848
论文提供的演示:
https://www.youtube.com/watch?v=vdxCqNWTpUs&feature=youtu.be
在演示中,你可以看到神经网把各种乐器的演奏转换成了不同的音乐。甚至口哨也能变成交响曲。这个结果给人印象深刻(类似的研究还有结合频谱和瞬时频率,利用GAN来生成·转换乐器种类)。我尝试后的感觉,用它做一个有趣的App或许可行,但很难达到音乐要求的质量。
论文做声音转换用的是编码-解码框架。为了达到转换各种声音的目的,它采用了通用(universal)编码器,然后对各个乐器做不同的解码器。通用编码器的方法原本用于图像领域。为了提高编码器提取特征的能力,作者们对编码器进行了刻意地强制,要求无法从编码中识别输入的声音属于那个领域(比如说来自钢琴或者小提琴),然后又对基本频率进行了扭曲。据称,只有这样才能顺利地训练模型。
音乐转换本身,是可以用各种方式来实现的。然而这个模型让我感到有些不同的是,他就好象是一个音乐家,欣赏了小提琴之类的音乐之后,用钢琴把它重新表现出来(论文作者们实际邀请了一些音乐家把某些音乐用钢琴再现,然后和模型生成的音乐进行对比,结果是模型生成的音乐略差于音乐家)。这种处理方式本身在今后或许会有更多的发展空间。值得期待。