文章主题:人工智能音乐, AIGC音乐引擎, 音乐创作
最近,我们得知一家名为「DeepMusic」(灵动音)的人工智能音乐服务提供商已经成功完成了一轮近千万美元的A轮融资。此次融资由GGV纪源资本主导,同时也有丰元资本参与跟投。这次融得的资金将主要用于研发自家的AIGC音乐引擎以及其应用,以此加快在国内外的市场拓展步伐。值得一提的是,一苇资本在此过程中担任了长期的独家财务顾问。
「DeepMusic」,一家于2018年成立的国内领先人工智能音乐服务商,专注于利用自主研发的AIGC技术打造音乐引擎,以实现AI音乐技术的场景化应用与产品化。
“AIGC的出现,极大地变革了人与内容的关系。”
36氪采访了「DeepMusic」的创始人兼CEO刘晓光,他表示,当前大模型正迅速占据部分内容创作心智,然而音频模态尚未像自然语言、图像等形式一样得到广泛应用和场景化。尽管音乐是一种艺术形式,但接受过系统学习的人只是其中的少数,每个人都有自己独特的喜好和理解。随着AIGC技术越来越垂直,以及相应的资本趋势,AI将带来更加普及的音乐创作方式和交互价值。
音乐知识云化,让AI“听懂”音乐作为一名音乐社团的成员,我深入地了解了市场动态,这为我日后的音乐制作职业生涯奠定了坚实的基础。2013年,我在清华大学攻读化学专业的期间,由于对音乐的热爱以及对于人工智能技术的兴趣,我结识了一群志同道合的朋友。我们共同发现并沉迷于”AI x 音乐”这一创新领域,于是便组建了「DeepMusic」的创始团队,开始了我们的探索之旅。
数据显示,目前全球音乐用户已经高达16.3亿,但音乐作为社交媒体、短视频平台等流行视角下最重要的自我表达方式之一,专业性门槛却一直没有被降下来。尽管近年来,库乐队等工作站已经一定程度上简化了编曲的入门难度,但乐理知识和数字演奏能力的阻碍,导致了距离“全民音乐创作时代”的到来,还有很长的路要走。
而产业机会的背后,一边是唱片公司和有限且昂贵的专业编曲资源几乎垄断了传统编曲流程,另一边是个人用户的创作影响力正在与日俱增。根据抖音数据,在播放量大于1万的视频中,有62%的内容来自于粉丝量1万以下的普通创作者。
“我们想要让音乐爱好者可以不用花大量的时间系统学习音乐,没有乐理知识的人也能表达自己的音乐天赋。”
刘晓光直言,当下,数字世界留给非专业音乐爱好者参与创作的方式十分有限。由于缺乏出色的音乐底层基础设施,音乐创作的门槛之高、创作耗时之长,都令普通人望而却步。就像我们很难想象在全民K歌等翻唱应用出现之前,有多少热爱唱歌的人善于使用电脑上的专业录音软件混缩声轨。
在AIGC时代,一切关于全民创作的“痒点”,都有了更直白的回答。
与AI绘画和ChatGPT等模态形式相比,利用AI生成音乐面临着更具挑战性的难题之一,那就是更大的语义鸿沟,也就是如何将语言描述与音乐内容进行精确匹配。这正是传统音乐制作人最重要的任务:在获得曲谱后,他们不仅需要进行编曲,更需通过沟通或协调,将创作者的抽象风格描述和情感语言转化为具体的音乐符号,从而使音乐与文本内容完美融合。
除了自然语言处理这一更下游的能力,在过去的AI音乐产业中,结构化数据是更关键的痛点。
“可以说,音乐的知识从来没有能够被人类检索过。”
在智能音乐这一跨学科领域中,未能提前爆发的原因之一,便是缺乏公开的结构化数据。回顾我过去参与音乐教育的经验,我发现乐理结构本身较为枯燥,例如教授孩子“四三拍”这样的基本节奏知识,最佳的学习方法便是让他们跟随熟悉的儿歌进行打拍。然而,在我们日常生活中所听的流行音乐中,大多数人并不能准确地识别出哪些歌曲采用四三拍,也不知道诸如“悲惨”、“激进”等听感是如何通过音乐符号的应用来实现的。因此,我们需要首先通过对人类音乐存量的标注和拆解,将音乐知识和信息进行连接和云化,进而使AI能够理解音乐,并构建出更贴近人类专业制作过程的AIGC系统。
为了实现这一目标,「DeepMusic」创建了音乐结构标准UMP及自动标注技术,并在过去几年中分析了大量音频文件,将它们的每个小节用了什么样的音高、和弦、段落等等音乐符号,将超过2万首歌的乐理信息转化为一个可用于训练模型的数据库,使得识别准确率能够达到90%以上,能够满足大部分C端用户的场景需求。
当技术环境来到AIGC进入到自然语言大模型的时代,「DeepMusic」自研的AIGC音乐引擎“Mutrix”在兼容开源语言模型的基础上扩展为多模态模型,最终达成自然语言对音乐的控制。
目前,「DeepMusic」的音乐结构标准UMP已经被TME旗下全民K歌、QQ音乐多个场景应用。与此同时经过多次迭代的UMP Board已经自主完成了40万首歌曲的AI自动标注。在输出的音乐风格上,「DeepMusic」也正在进行出海内容的扩充,加速推进海外市场布局。
工作站嵌入工作流,元宇宙打开泛C端市场“一个音乐爱好者想要创作一首歌,需要支付的编曲费用平均在5000元左右。”
根据刘晓光的介绍,单就编曲而言,这一价格甚至和一般唱片公司支付给编曲师和后期的成本差不多。但普通爱好者创作音乐的初步目的可能并不是变现,而是个人爱好或者社交目的,这就导致了一个内容创作收益和成本极其不对等的情况。
然而,尽管音乐创作并不是一个很“痛”的生活必需品,需求却在文化娱乐、青少年教育、游戏等多个领域保持着显著增长。数据显示,2021年中国在线音乐用户达6.89亿,在全球16.3亿左右的活跃音乐用户中占比可观。同时,中国K12阶段进行音乐学习的青少年占比高达56.5%
产品方面,技术特点决定了AIGC目前还是一个只能应用于生产端的能力,而流行音乐却似乎是一个“供大于求”的产业。考虑基于音乐引擎打造面向各层级音乐用户的音乐消费端的新机遇,「DeepMusic」的产品矩阵目前包括:旨在降低专业创作门槛的音乐工作站“和弦派”,该产品已进入内测阶段;以及致力于覆盖泛音乐用户的社交娱乐元宇宙产品“音梦岛”,将线下音乐娱乐场景线上化;已上线了“口袋乐队”作为音乐创作与音乐元宇宙玩法的试验场。
「和弦派」产品界面
「口袋乐队」产品界面
其中,“和弦派”作为比库乐队门槛降低极大的音乐工作站,对于AIGC音乐能力、实时渲染能力等具有更高的技术要求,将帮助「DeepMusic」把底层AI音乐技术率先嵌入到音乐创作的工作流中。
从2019年开始,「DeepMusic」团队用了很长时间打通引擎级的工程化开发,使得一个跨平台的高性能音频引擎成为了可能。与近来炙手可热的Google MusicLM相比,「DeepMusic」将目光聚焦于与创作者深度结合的音乐的创作以实现自我表达,而非价值占比仅为1%的功能性音乐(如轻音乐、睡眠音乐、视频配乐等)。
团队方面,「DeepMusic」核心成员均为清华教育或科研背景,且在音乐学习和编曲方面有着深厚造诣。CEO刘晓光作为音乐制作人主导制作近百首作品;CTO苑盛成本硕博毕业于清华大学工程物理系,在美国罗格斯大学大数据实验室任博士后,从事音乐和听觉模型研究。
谈及AIGC可能会涉及的版权问题,刘晓光表示,在当前流行音乐的话语体系下,所谓的“创意”都是有规律可循的。在此背景下,用AI去积累和理解足够多的音色、演奏方式等,从而建立全集,是完全可实现的。
目前,「DeepMusic」已经和全民K歌落地了多项合作,例如上线了一个把存量歌曲一键remix成其他风格的功能,为用户提供更丰富的内容表达空间。这项技术已经触达了上千万的用户,被使用超过3亿次。
“短期内,我们会想办法把AIGC的能力更多地嵌入到音乐人熟悉的工作流中。”
未来,「DeepMusic」将继续深耕技术成果的产品化转化和商业化探索,迎着AIGC的浪潮,让音乐创作变得像现在的视频创作等场景一样简单快捷,让普通人的灵感和天赋不再因为专业门槛而被扼杀。
———————–
GGV纪源资本执行董事罗超:我们从2019年开始持续扫描娱乐科技赛道,关注游戏、影视、动漫、音乐等大的娱乐主题下的技术公司,包含了渲染物理仿真、AI生成等各种技术,支撑如今多媒体的丰富的数字化娱乐方式。娱乐看似是情感驱动的事,但背后又有很多理性的技术可以驱动和助力的方式。音乐是娱乐科技的重要赛道,也是一个离我们生活如此之近的行业,但同时又如此传统。我们认为AI+数据驱动的方式,可以让整个行业有革新。DeepMusic在这件事情上技术积累非常深厚,团队对此又有着非常深的热爱。我觉得只有真的爱一个行业,并且把自己所学投入在自己爱的事情里,把感性和理性做一个最完美的结合,才能够把它做到最好。所以在看完这个行业之后,DeepMusic团队是我愿意去支持、去陪伴一起创业的团队。
一苇资本合伙人林文欣:一苇长期关注AI、XR等底层技术因素对生产力及C端消费者生活与娱乐方式的改变,从22年初起尤其关注生成式AI给各行各业带来的深切变革。很荣幸持续与DeepMusic团队合作,合作中始终被DeepMusic团队对音乐的纯挚热爱、极致的聪明和自我迭代能力,以及不断被验证的技术远见所深深感染。作为AIGC音乐赛道占据绝对优势的先行者,期待DeepMusic引领“人人都是音乐家”的时代向我们大步走来。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!