文章主题:自然语言处理, 情感表达, 专业工具, AI技术

666AI工具大全,助力做AI时代先行者!

AI来当调音师算不算?

在我公司的前台,有一位充满魅力的年轻女孩。她拥有着令人难以抗拒的才华,她的歌声犹如狂风暴雨般震撼人心,又如细雨蒙蒙般柔美动人。每当我听到她那动人的旋律,便仿佛置身于一个令人陶醉的世界。她那激情四溢的演唱风格,让我深深地被吸引,而她那如诗如画的音色,更是让我陶醉其中,无法自拔。

如果不是因为她跑调……..

在前几个年度的公司盈利中,她总是抓住每一个机会向我提出建议,希望我能制作一款能让人唱歌不跑调的作品。然而,我每次都回应称,自动修音技术(Autotune)已经发展了20多年,是一项相当成熟的技術,她可以自行学习尝试。

今年,我的心态发生了一些变化。原因在于,她竟然尝试用AutoTune这样的专业工具修唱了一首歌。然而,结果令人难以直视。AutoTune和Melodyne这类专业工具,其复杂程度和精密性超出了普通人的认知。如果她真的具备这种专业素养,又何需修唱呢?

所以我就想, fuck, 干脆做一个AI修音吧.

1703523652332.jpg

音高的修正主要有两步, 第一步和传统的autotune类似, 要把音高修到正确的旋律线上, 至少让用户不跑调. autotune的”auto”方案是把任意时刻的音高修到离它最近的整数音高上. 这种姑且可以说基于简单规则的修音在AI时代之前是很正确的选择. 毕竟好歹面向专业歌手, 总不能唱跑一个音以上吧? 但我们不得不更进一步. 即真的把音高修到正确的位置上. 因为我们公司那位小姐姐轻松唱跑大三度以上…..

唱歌不跑调也只是演唱这门艺术的基本要求. 如果一个人唱歌仅仅做到了基本要求, 那和”唱得好”还离得远. 我们还要捕捉好歌手的音高变化”细节”… 颤音, 滑音, 蒙古长调等等等等.. 这些是前人没有做过的.

这是用户唱的(我), 尽管没有跑调, 但音高比较”平”.

1703523652676.jpg

原唱目标曲线, 可以看到很多的颤音和滑音. (哦对了, 从原歌中提取原唱音高, 那又是另一个故事了).

1703523652910.jpg

说干就干! 综合来讲, 大致方法非常类似于图片风格迁移, 将原唱或者说参考人声的音高曲线中的细节迁移到用户唱的音高之上. 说起来容易做起来难, 图片是二维而音高是一维的, 考虑到长度问题, 这里还用到了FCN. 还有最关键的是图片风格迁移所不同, 音高不但要迁移细节, 还得让目标用户”唱准”正确的旋律. 也就是说被迁移的不光是细节, 还有音高的整体趋势. 还得考虑哪里是噪音哪里是乐音, 总不能把呼吸声也修出音高来.

你或许会有疑问:“将原唱的音高直接应用于用户演唱是否可行?”答案是:不,这并不可行。原因在于,用户的节奏是固定的,如果你硬生生地将原唱的音高应用到他们的演唱中,不仅会使得歌曲失去原有的韵味,还可能让用户唱得跑调。因此,我们需要避免这种情况的发生,尽量保持原唱与用户演唱的一致性。

音色保持:

变调就会变音色, 此乃自然之理也. 为了不让小姐姐变成会说话的汤姆猫, 就不得不对变调后的音色进行某种补偿, 使得共振峰依然维持在正确的位置上. 但只是”维持”还不够. 因为我们不是修半个音一个音, 而是修好几度. 人在唱不同音高时共振实际上是会变的. 为此我们又多了个网络, 用一个浅层神经网络, 以高音为目标, 低音为输入来使得该网络可以”猜出”现在正在唱歌的这个人如果唱更高或更低, 音色大致是什么样的. ( 最后考虑到手机性能问题, 只有4层网络, 不然效果还能更好, 很可惜 ).

网络结构实时测试中…

1703523653061.jpg0

音色增强:

既然音高都修了, 自然音色也要修. 仅仅使用传统的效果器是不够的, 我们弄了个非常类似于RNN的结构, 在频域不断地把每一帧的音色修正到我认为”好听”的形状上. 说实话这类使用AI的语音增强的paper是有一些的, 但让它适应唱歌, 做到手机本地, 还能实时切换调节就是完全另一个故事了. 用了海量的简化模型, 写了天多的NEON intrinsics, 最后逼得我把每层节点到下一层的连接数量都作为损失函数的一部分了… 得到了满意的音色增强模型.

正在学习中…..

1703523653301.jpg

在经过半年的努力尝试和改进之后,我认为产品已经具备初步的使用价值。因此,我决定先行发布,以便收集用户的反馈意见,以便进一步优化和完善。虽然目前还存在一些问题和不足之处,但只要用户满足特定的条件,产品的表现实的令人惊讶。

1703523653461.jpg0

在重新审视原唱时,我们发现其中融入了许多细致入微的元素,这些都被巧妙地赋予了用户独特的声音特点。同时,音高也得到了恰到好处的调整,以确保整体效果的和谐统一。尽管在某些地方可能仍能听到一些不足之处,但考虑到这是由AI自动修音技术完成的,这样的表现实属难得。

当然, 如果你想手动修也可以:

1703523653629.jpg0

综合来说, autotune之类的专业工具对普通人来说还是有很大的技术门槛的, 我们做这个东西的最初目的就是想用AI自动解决一些过于专业的细节, 让爱好者们也能体会到修音的快乐~ 真心希望喜欢的人玩的开心, 广告不广告的随缘吧~

大概就这些.

//—————————-

经小姐姐同意, 把小姐姐的对比音频也发上来了:

1703523653757.jpg0

另外app名字叫做”百万调音”

访问: 百万调音 – AI助你更动听

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *