​AIGC技术赋能音乐产业:腾讯音乐探索之路
语音大模型

​AIGC技术赋能音乐产业:腾讯音乐探索之路

这篇文章主要讨论了人工智能技术在音乐产业中的应用和腾讯音乐在此领域的实践。在AIGC技术风靡的今天,腾讯音乐已经广泛应用AI技术,并在AIGC的产业化应用方面探索出一条有差异化竞争力的道路。这家中国在线音乐与音频娱乐平台,通过其大量数字化内容和用户参与式的音效服务,为AIGC技术提供了充足的數據支持。未来,腾讯音乐计划将AIGC技术应用于内容创作,提供更全面的数据支撑,推动音乐产业的数字化升级和高质量发展。
人工智能+音乐,数智音乐人Soi先下一城?
语音大模型

人工智能+音乐,数智音乐人Soi先下一城?

作者 | 付知行 11月15日,数智音乐人Soi携手TME Studio全球同步上线了由尚雯婕担当音乐制作人的全新单曲《以我之名 Say My Name》,由此Soi正式出道。这首歌的成绩相当亮眼:QQ音乐上单日万人播放、强势入围电音榜前30名;抖音上相关话题收获了过亿播放量,发行首日荣登抖音挑战榜第四;微博上相关话题阅读量达到了1252.9万。 在《以我之名 Say My Name》的MV中,高饱和度的紫红色背景里,富有科技感的荧光线条与绚丽的光影交错摆动,升降台缓缓而起,身形苗条、身着时尚套装的Soi随着音乐的律动随之而舞,背景从城市高空切换到室内舞台,百种场景里,Soi呈现了一场满是科技感的高质量音乐表演。Soi背后的“幻方势代”团队,是素有“电音女科学家”之称的尚雯婕,以及两位怀揣音乐梦想的科学家,来自复旦大学的葛启阳博士与胡子欣博士多年来倾力打造的AI赋能的全链路音乐创作新范式。 不止唱跳,爆款《以我之名 Say My Name》潜力无限 “整首歌的曲风洋溢着复古感强烈的节奏鼓点,冲突性和融合性的奇妙碰撞,搭配她丝滑的声音演绎,确实让听众如同进入了虚虚实实的一个梦幻舞池之中。” “太上头了,没想到这居然是AI唱的歌,音色动听,曲风欢快,还能听出欢乐的情绪,请多出点作品!” 社交媒体上,乐评人、歌迷们不吝于表达对Soi单曲《以我之名 Say My Name》的喜爱之情。 “我们的目标,是要打造一首优质、有风格、有情绪的高质量流行歌曲。”制作人尚雯婕在采访中说出了对《以我之名 Say My Name》的期待。事实上,《以我之名 Say My Name》确是全球所有AI辅助音乐创作中水准最高的一首,整个歌曲在架构、进程、旋律方面,已经达到了商业爆款的水平。这首歌也凝聚了幻方势代多年的技术积累。 音乐人尚雯婕一直在尝试将前沿技术与理念引入到音乐创作中。多年来,她也一直在关注音乐领域数字化的可能性。 音乐人尚雯婕 2020年,尚雯婕担任微软小冰的AI音乐顾问时,就已成为国内最早接触AI音乐的先行者。如今,幻方势代聚集一众怀揣音乐与科学梦想的音乐人、科学家与工程师,共同致力于以人工智能与数字孪生技术赋能泛音乐、进行高质量版权产品创作。 小编以为,某种程度上,也唯有幻方势代这样拥有兼具科学和音乐才能的复合型人才团队,才能让AIGC音乐有从理论走到实践的能力。 今年5月,“AI孙燕姿”“AI周杰伦”等在全网爆火。但这些“AI歌手”要如何继续发展一直没有一个准确的答案。在整个AI+音乐领域,上半年国内爆火的相关数字人项目,也是“美则美矣,只是皮囊”,很多在现阶段还缺乏清晰和长久的运营思路。 而幻方势代打造的Soi,则某种程度上提出了解决上述问题的途径。音乐内容上,Soi可以完成音乐作曲、作词、编曲、演唱等多项内容,能持续产出有情感的音乐作品,也能产出优质的平面、视频等物料内容,从而能实现多元化场景的商业化落地。 音乐类型上,Soi则选择了难度最大的唱跳风格——即要求Soi同时掌握说、唱和舞蹈等多种技艺,每一项都需要长时间的技术磨合和实践,并要将它们融合起来在表演中无缝切换,这对于任何现有的单一技术背景的团队来说都难度极大。而这,也得益于幻方势代的技术积累和整合运用,才能做出如此高综合分的产品。 如今,Soi的成片质量得到了市场的认可,也充分向市场证实了AI+音乐的作品有着无限可能性。未来,当Soi推出更多的作品时,Soi的IP形象也会逐渐养成,属于Soi、属于AI+音乐的新时代正在开启。 艺术、科学和工程,三位一体打造IP,成就商业奇迹 目前,DeepMusic、小冰、网易云音乐、ME Studio等国内音乐公司,都或早或晚开启了他们在AI编曲、AI作词、AI声纹等领域的探索,并在自身业务方向取得各自的突破。在此背景下,幻方势代想要覆盖AI音乐创作最广业务的野心也能算顺理成章。 2022年8月,幻方势代与众多主流媒体联手打造了数字人时,已经拥有了领先的技术,跑通了相关领域的市场难点。 相较于大语言模型,音乐大模型涉及捕捉和处理音高、节奏、音色等多维度音乐元素的细微差别,同时还要理解和再现音乐作品中的情感和风格,技术上极具挑战。 因此,与市面上常见的AI团队不同,幻方势代拥有着一支精通乐理和科技的创业者们。葛启阳和胡子欣均擅长多种乐器,整个算法团队也都有一定的音乐背景。采访中,胡子欣提到:“Soi的团队可以说是最懂音乐Know-how的,与其他的创业团队相比,我们兴趣所至。” 成立以来,幻方势代一直在探索将音乐、科学与工程融合的方式打造人工智能解决方案。为此,他们采用了知识与数据双驱动的大模型框架,音乐人、科学家与工程师同框的人机协同体系,让AI理解生成音乐作品。 目前,幻方势代拥有行业领先的人工智能技术。为了获得高质量的语料,团队自研了一套标注体系,收集了大量公网的音乐数据、歌词信息等。尚雯婕多年来在音乐领域的专业工程文件,也在当中发挥了关键作用。 “Soi不只是要创造一个唱跳艺人,Soi要成为一个全能型创作者。”为此幻方势代的科学家团队与国内外音乐行业经验最丰富的一批导师一起学习如何创作,并将这个过程融入到Soi的训练中。通过仿生传统音乐创作路径研发的人机协同的逐步式学习与生成模式,Soi和我们一样,每天在听各种音乐、在豆瓣上看各种评论、在寻艺上追流量艺人。这些信息流向位于服务器的大脑中,迸发出各种灵感并且通过音乐表达出来。此外,胡子欣戏称,“Soi也需要一些套路应付工作,我们引入了DDPM、强化学习、GAN、规则模型等多个模型,让Soi可以完成深度个性化生成任务目标。”...
AIGC制作音乐时代已经到来?NO,或许只是辅助,主要还是靠音乐人
语音大模型

AIGC制作音乐时代已经到来?NO,或许只是辅助,主要还是靠音乐人

以ChatGPT、Midjourney等为代表大模型AI产品在公众中的迅速走红,标志了这一轮AIGC应用的技术爆发。但这些文生图、文生文赛道的成功产品的万丈光芒之下,人们似乎忽视了另一条探索起步更早、重要性也并不逊色的AIGC赛道:音乐和音效。 人类对利用计算机作曲的技术探索源远流长。早在1960年,俄罗斯学者Rudolf Zaripov就发表了历史上首篇利用计算机算法进行谱曲的论文。2012年,西班牙马拉加大学利用仿生学技术打造了作曲计算机Iamus,随后与伦敦交响乐团合作推出了首张由AI作曲的现代古典乐专辑《Iamus》。 而在大模型时代到来前,市面上早已出现多款利用深度学习、机器学习等人工智能技术赋能的商业化AI音乐生成产品。其中较为知名的包括成立于2014年的Amper Music,该公司随后并入商业媒体内容库公司Shutterstock,为其提供自定义音乐生成服务。 另一款产品AIVA则凭借出色的生成性能,在2017年被法国的作曲家权利协会SACEM认证为首个“AI作曲家”。类似产品还包括被TikTok收购的Jukedeck、拥有文生音频能力的Mubert等。 而不少AI技术公司也跃跃欲试,通过切入这条赛道。如OpenAI此前曾推出过音频产品Jukebox,谷歌也在今年1月推出专攻音乐生成的大语言模型MusicLM。这些产品目前还仅以技术原型的形式存在,但从官方演示的生成效果上来说,俨然已经有模有样。 作为结合声光效的综合型娱乐媒介,游戏公司们都在快速上马AIGC开发流程。AI究竟将何时、以何种形态落地于游戏音频开发应用层? AIGC如何助力解决游戏音频三大需求? 要解决这个问题,我们需要梳理实际游戏开发流程中的声音需求。在游戏开发中所需使用到的声音类内容大体可以被拆分为三个主要大类:角色配音、音效与配乐。而根据类别的不同,AIGC技术可行的应用深度也不尽相同。 在眼下的角色配音领域,AIGC早已出现了不少的现成的用例,表现出了极高的应用潜力——这很大程度上得益于TTS(语音合成)技术的飞速发展。如今,AI驱动的语音合成已经很大程度上克服了分句、语调等带来的“机械味”,并可以实现较为初步的抑扬顿挫与情感表达。 玩家对《未定事件簿》AI角色“莫弈”做出的点评 如《未定事件簿》、《时空中的绘旅人》等头部产品早从去年起就上马了小部分AI声优试水。针对AI语音的实装效果,玩家们给出了普遍好评。尽管配音效果在细腻度上尚无法完全与专业声优相匹敌,但在日常语音等低权重场景,AI合成语音已然可以覆盖掉大部分需求。而像地图导航播报语音、有声书、甚至买量素材等高语音需求量的场景中,AI合成语音已然开始逐步投入应用。 而在音效方面,对音效品质要求不高的公司如今大多会购买或使用免费音效库来填充游戏声音,另一部分厂商则采取自行制作或外包给第三方Foley团队的形式制作游戏中的音效。而随着游戏题材多元化发展,仙侠、奇幻、二次元题材中的音效往往没有现实原型。在这种情况下,想要凭借统一的大模型在兼顾高品质的情况下产出合用的音效,并非易事。 但这并不意味着这一场景无法被AI渗透。某二次元头部大厂的相关负责人在近期的研报问答中表示,目前的音效合成主要采取由调音师在音房中创作demo的形式,容易造成灵感枯竭。而该公司正在实验通过AIGC生成多种不同风格Demo的形式,为音效师提供创作灵感和原型,进而加速创作过程。 在配乐方面,随着游戏精品化趋势的铺开,如米哈游、鹰角等头部公司如今已将游戏配乐打造为稳固游戏世界观、建立情感连接、延申线下活动的重要载体,而生成式AI较为难以满足这类高价值需求。 但另一方面,如微信小游戏、超休闲这类轻叙事、低成本的品类往往对游戏配乐没有过高需求。在传统上,这类开发者会采取向商业曲库购买音轨的方式,而生成式大模型的出现,为这一类游戏配乐的创作开启了无穷的想象空间。 自然语言交互:AIGC配乐创作究竟长啥样? 相较于此前的AI技术进步,本轮生成式AI的热潮将“自然语言输入”的概念进行了广泛普及。通过自然语言prompt向AI描述自己的需求进而实现定向生成,是眼下人们与AI互动的标准形式。这意味着,在商业曲库中逐个轨道试听,苦苦寻找与自己游戏产品调性一致的配乐的日子即将成为过去式,未来的游戏开发厂商可以将配乐场景转化为文字Prompt喂给AI,精准返回符合需求的游戏音乐。 而当前,最接近这类使用体验的AIGC音乐商业产品是提供了“文生音乐(text-to-music)”选项的Mubert。一名YouTube博主近日向我们演示了Mubert的生成功能。 Mubert可以被部署到谷歌的云端Google Colab云服务器中运行。用户可以在Prompt一栏指定场景内容、风格、情绪、曲风等内容。此外,用户还可设定生成出的音乐长度,并自由调整是否使其“循环”,这一功能的存在为创作游戏配乐提供了很大的便利。 谷歌在年初发布的大模型MusicLM与Mubert近似,但这款实验性的模型向我们展示了“图生音乐”、片段定制等更高级的AIGC功能,让我们一瞥更广阔的AIGC未来。 在论文中,谷歌演示了多种生成方式,其中“Story Mode”的生成方式允许用户在Prompt中通过加入时间坐标的方式,为每一段生成单独指定内容调性。此外,谷歌还尝试了将知名画作的百科词条输入模型中进行生成。如输入梵高的著名画作《星空》后,MusicLM为我们带来了一段静谧的钢琴独奏,的确符合图片的整体调性。 在多模态大模型呼之欲出的未来,或许开发者可以连文字输入词都直接摆脱,将自己游戏场景的图片、乃至游戏的场景和剧情本身直接输入至大语言模型,一步到位地生成最为匹配的游戏配乐。又或者,游戏可以直接摆脱预设音轨的负担,由AIGC引擎根据游戏角色所在的位置和所处的情景进行“涌现式”的生成,真正实现“移步换景”,让每名玩家都能拥有最具个性化的游戏体验。 版权问题藏隐忧 在人人感叹AI日新月异,AIGC业界热火朝天发展的同时,版权问题如同幽灵一般笼罩在全体创作者的心中。艺术家们害怕自己的作品被AI“偷”走;使用AI的创作者们担心自己无法拥有版权;商业图库以未授权训练的名义起诉Stability AI……著作权制度这一传统的法律关系产物,在面临新时代的AIGC时,为我们带来了太多未被判例覆盖的场景。我们正走向一片未曾探索过的深水区。 一个重要的问题是:假如AI生成的音乐与现有的作品表现出了极高的相似度,那最终生成的作品是否构成侵权?这一担忧并非杞人忧天——谷歌在其MusicLM的论文中表示,生成的音乐中有约1%与已有的音乐作品表现出重叠。这意味着任何游戏厂商都要引入1%的侵权风险,这无疑会带来巨大的隐忧。 此外,根据此前美国版权局的相关判例,利用AIGC生成的音乐本身假若不加以“深度修改”,那么这一音乐并不能够被认为符合著作权的注册标准。这意味着,假如想在游戏中加入AIGC音乐,那么这些音乐的著作权未必可以被掌握在游戏公司的手中。 一些新型的侵权形态正在暗中萌芽:近日,环球唱片公司向YouTube发出DMCA版权警告,要求下架该平台上一个AI制作的视频。 该视频作者将知名Rap歌手Eminem的声音训练成模型,并让其演唱了一首关于猫的全新Rap。唱片公司认为,这是对Eminem形象的直接侵权。同时,环球唱片公司要求Spotify、YouTube等平台采取措施,以避免该公司旗下的音乐作品被爬取学习。而外媒《Wired》采访到的一名版权律师也认为,尽管此前尚无相关判例,但这一申诉从法律上存在合理性。 对于游戏公司来说,版权纠纷是一项重要的风控因素。 多家国际游戏大厂都禁止美术外包厂商提交AI生成作品,以避免版权纠纷。而目前,英伟达和Adobe等布局AIGC的巨头已经开始通过与Getty Images等商业图库达成分成合作的方式规避版权风险。而或许只有等到AIGC的版权争议彻底解决之时,我们才能够看到游戏公司广泛应用这一新技术。