AI音乐生成：大模型时代的声光盛宴

文章主题：AIGC, ChatGPT, Midjourney, 人工智能

「点击上方”GameLook“↑↑↑，订阅微信」

ChatGPT、Midjourney等大型AI模型在公众中迅速走红的趋势，标志着这轮AIGC应用技术的巨大爆发。然而，在众多成功的文生图和文生文竞赛产品的光环下，人们似乎忽视了一个重要的领域：音乐和音效的AIGC赛道。尽管这个领域的探索起步较早，其重要性也不容小觑。

自人类历史开始，计算机音乐创作技术的探索便从未停止。早在1960年，苏联学者Rudolf Zaripov便发表了全球首篇关于利用计算机算法创作音乐的论文，标志着这一领域的开创性进展。到了2012年，西班牙马拉加大学更是运用仿生学原理，成功研发出了作曲计算机Iamus。紧接着，他们与伦敦交响乐团联手，推出了一张由人工智能创作的现代古典音乐专辑《Iamus》，这无疑是一次令人瞩目的突破。

作曲电脑Iamus

在大模型时代来临之前，市场上已经涌现出了众多运用深度学习和机器学习等人工智能技术的商业化AI音乐生成产品。在这些产品中，较为知名的有成立于2014年的Amper Music。后来，该公司被商业媒体内容库公司Shutterstock收购，从而为其提供定制化的音乐生成服务。

AIVA是另一款具有卓越生成性能的产品，它在2017年成为首个获得法国作曲家权利协会SACEM认证的“AI作曲家”。此外，还有一些类似的产品，如被TikTok收购的Jukedeck和具备文生音频能力的Mubert等。

许多AI技术公司都在摩拳擦掌，试图涉足这个新兴领域。其中，OpenAI公司已经推出了其音频产品Jukebox，而谷歌则在今年的1月份，推出了一款专门用于音乐生成的AI大语言模型MusicLM。虽然这些产品和他们的技术原型仍然存在，但从官方展示的生成效果来看，它们已经有了相当的效果。

在当前的数字时代，游戏行业正迅速发展，其中一项关键的技术便是人工智能（AI）。许多游戏公司已经开始采用AIGC（高级人工智能创意工具）来加快他们的游戏开发流程。然而，对于这个行业的未来走向，有一个问题一直困扰着人们，那就是：AI技术何时以及以何种形式应用于游戏 audio（音频）开发应用层面？这正是GameLook感到好奇的地方。

AIGC如何助力解决游戏音频三大需求？

要解决这个问题，我们需要梳理实际游戏开发流程中的声音需求。在游戏开发中所需使用到的声音类内容大体可以被拆分为三个主要大类：角色配音、音效与配乐。而根据类别的不同，AIGC技术可行的应用深度也不尽相同。

在眼下的角色配音领域，AIGC早已出现了不少的现成的用例，表现出了极高的应用潜力——这很大程度上得益于TTS（语音合成）技术的飞速发展。如今，AI驱动的语音合成已经很大程度上克服了分句、语调等带来的“机械味”，并可以实现较为初步的抑扬顿挫与情感表达。

玩家对《未定事件簿》AI角色“莫弈”做出的点评

如《未定事件簿》、《时空中的绘旅人》等头部产品早从去年起就上马了小部分AI声优试水。针对AI语音的实装效果，玩家们给出了普遍好评。尽管配音效果在细腻度上尚无法完全与专业声优相匹敌，但在日常语音等低权重场景，AI合成语音已然可以覆盖掉大部分需求。而像地图导航播报语音、有声书、甚至买量素材等高语音需求量的场景中，AI合成语音已然开始逐步投入应用。

而在音效方面，对音效品质要求不高的公司如今大多会购买或使用免费音效库来填充游戏声音，另一部分厂商则采取自行制作或外包给第三方Foley团队的形式制作游戏中的音效。而随着游戏题材多元化发展，仙侠、奇幻、二次元题材中的音效往往没有现实原型。在这种情况下，想要凭借统一的大模型在兼顾高品质的情况下产出合用的音效，并非易事。

但这并不意味着这一场景无法被AI渗透。某二次元头部大厂的相关负责人在近期的研报问答中表示，目前的音效合成主要采取由调音师在音房中创作demo的形式，容易造成灵感枯竭。而该公司正在实验通过AIGC生成多种不同风格Demo的形式，为音效师提供创作灵感和原型，进而加速创作过程。

在配乐方面，随着游戏精品化趋势的铺开，如米哈游、鹰角等头部公司如今已将游戏配乐打造为稳固游戏世界观、建立情感连接、延申线下活动的重要载体，而生成式AI较为难以满足这类高价值需求。

但另一方面，如微信小游戏、超休闲这类轻叙事、低成本的品类往往对游戏配乐没有过高需求。在传统上，这类开发者会采取向商业曲库购买音轨的方式，而生成式大模型的出现，为这一类游戏配乐的创作开启了无穷的想象空间。

自然语言交互：AIGC配乐创作究竟长啥样？

相较于此前的AI技术进步，本轮生成式AI的热潮将“自然语言输入”的概念进行了广泛普及。通过自然语言prompt向AI描述自己的需求进而实现定向生成，是眼下人们与AI互动的标准形式。这意味着，在商业曲库中逐个轨道试听，苦苦寻找与自己游戏产品调性一致的配乐的日子即将成为过去式，未来的游戏开发厂商可以将配乐场景转化为文字Prompt喂给AI，精准返回符合需求的游戏音乐。

而当前，最接近这类使用体验的AIGC音乐商业产品是提供了“文生音乐（text-to-music）”选项的Mubert。一名YouTube博主近日向我们演示了Mubert的生成功能。

如视频所见，Mubert可以被部署到谷歌的云端Google Colab云服务器中运行。用户可以在Prompt一栏指定场景内容、风格、情绪、曲风等内容。此外，用户还可设定生成出的音乐长度，并自由调整是否使其“循环”，这一功能的存在为创作游戏配乐提供了很大的便利。

谷歌在年初发布的大模型MusicLM与Mubert近似，但这款实验性的模型向我们展示了“图生音乐”、片段定制等更高级的AIGC功能，让我们一瞥更广阔的AIGC未来。

在论文中，谷歌演示了多种生成方式，其中“Story Mode”的生成方式允许用户在Prompt中通过加入时间坐标的方式，为每一段生成单独指定内容调性。此外，谷歌还尝试了将知名画作的百科词条输入模型中进行生成。如输入梵高的著名画作《星空》后，MusicLM为我们带来了一段静谧的钢琴独奏，的确符合图片的整体调性。

这让GameLook不禁遐想，而在多模态大模型呼之欲出的未来，或许开发者可以连文字输入词都直接摆脱，将自己游戏场景的图片、乃至游戏的场景和剧情本身直接输入至大语言模型，一步到位地生成最为匹配的游戏配乐。又或者，游戏可以直接摆脱预设音轨的负担，由AIGC引擎根据游戏角色所在的位置和所处的情景进行“涌现式”的生成，真正实现“移步换景”，让每名玩家都能拥有最具个性化的游戏体验。

版权问题藏隐忧

在人人感叹AI日新月异，AIGC业界热火朝天发展的同时，版权问题如同幽灵一般笼罩在全体创作者的心中。艺术家们害怕自己的作品被AI“偷”走；使用AI的创作者们担心自己无法拥有版权；商业图库以未授权训练的名义起诉Stability AI……著作权制度这一传统的法律关系产物，在面临新时代的AIGC时，为我们带来了太多未被判例覆盖的场景。我们正走向一片未曾探索过的深水区。

一个重要的问题是：假如AI生成的音乐与现有的作品表现出了极高的相似度，那最终生成的作品是否构成侵权？这一担忧并非杞人忧天——谷歌在其MusicLM的论文中表示，生成的音乐中有约1%与已有的音乐作品表现出重叠。这意味着任何游戏厂商都要引入1%的侵权风险，这无疑会带来巨大的隐忧。

此外，根据此前美国版权局的相关判例，利用AIGC生成的音乐本身假若不加以“深度修改”，那么这一音乐并不能够被认为符合著作权的注册标准。这意味着，假如想在游戏中加入AIGC音乐，那么这些音乐的著作权未必可以被掌握在游戏公司的手中。

一些新型的侵权形态正在暗中萌芽：近日，环球唱片公司向YouTube发出DMCA版权警告，要求下架该平台上一个AI制作的视频。该视频作者将知名Rap歌手Eminem的声音训练成模型，并让其演唱了一首关于猫的全新Rap。唱片公司认为，这是对Eminem形象的直接侵权。同时，环球唱片公司要求Spotify、YouTube等平台采取措施，以避免该公司旗下的音乐作品被爬取学习。而外媒《Wired》采访到的一名版权律师也认为，尽管此前尚无相关判例，但这一申诉从法律上存在合理性。

对于游戏公司来说，版权纠纷是一项重要的风控因素。GameLook此前曾报道过，多家国际游戏大厂都禁止美术外包厂商提交AI生成作品，以避免版权纠纷。而目前，英伟达和Adobe等布局AIGC的巨头已经开始通过与Getty Images等商业图库达成分成合作的方式规避版权风险。而或许只有等到AIGC的版权争议彻底解决之时，我们才能够看到游戏公司广泛应用这一新技术。

····· End ·····

GameLook每日游戏产业报道

全球视野 / 深度有料

爆料 / 交流 / 合作：请加主编微信 igamelook

广告投放 : 请加 QQ：1772295880

长按下方图片，”识别二维码

” 订阅微信公众号

····· 更多内容请访问 www.gamelook.com.cn ·····

觉得好看，请点这里 ↓↓↓

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复