AI与音乐的对决:2024山东新年文艺晚会音乐专场的创新与挑战
音频工具

AI与音乐的对决:2024山东新年文艺晚会音乐专场的创新与挑战

本文介绍了一场2024山东新年文艺晚会音乐专场,结合了前沿科技和创新成果,呈现了AI与音乐相结合的视听享受。音乐会包含了9首由中央音乐学院音乐人工智能团队精心制作的作品,包括AI生成的音乐作品和电子音乐作曲家运用AI技术创作的新作品,探索了音乐在人工智能时代的发展方向和路径。
AI视频生成领域迎来新突破:StableVideoDiffusion模型推出
Stable Diffusion视频工具

AI视频生成领域迎来新突破:StableVideoDiffusion模型推出

近日,AI初创公司Stability.AI推出最新AI视频生成模型Stable Video Diffusion,覆盖静态图像至14帧、24帧的视频生成。模型已在Github和Huggingface上线,两种模型形式为SVD和SVD-XT。训练数据来自包含数百万个视频的数据集及数十万到一百万个剪辑的较小集合。虽然存在局限性,如无法生成无运动或快速摄像机移动的视频,但在生成四秒高质量片段方面表现出色。未来,Stability.AI计划推出更多模型及“文本到视频”工具,扩展应用场景。公司面临挑战,如版权问题、财务压力和高管离职等。Stable Video Diffusion和Stable Audio系列工具为游戏和广告行业带来新机遇,有望成为关键工具。
音乐也逃不过AIGC:国风摇滚都来得(内藏ikun彩蛋)量子位2023-06-13 13:15北京量子位2023-06-13 13:15北京
音频工具

音乐也逃不过AIGC:国风摇滚都来得(内藏ikun彩蛋)量子位2023-06-13 13:15北京量子位2023-06-13 13:15北京

克雷西 发自 凹非寺量子位 | 公众号 QbitAI “再多看一眼就会爆炸,再靠近点就快被融化”到底是个什么感觉? (这是一句《只因你太美》中的歌词) 下面的音乐或许能让你体会到这种“从来未有”的feel,坤坤听了都会直呼内行。 再多看一眼就会爆炸 00:15来自量子位 这段音乐来自Meta最新推出的文生音乐工具MusicGen。 只需要输入一段文字,点击生成按钮就能得到一段最长30秒的音乐,而且支持中文。 不懂乐理也没关系,MusicGen还可以上传已有的音乐作为参照。 【更多音频效果,请移步公众号文章】 比如上面这段音乐就是结合了原曲旋律重新生成的。 如果你实在不知道怎么prompt,也可以像这位网友一样问问ChatGPT: 无论是国风还是摇滚风都能轻松驾驭,甚至是两者结合。 【更多音频效果,请移步公众号文章】 哪怕国风伴奏也难不倒MusicGen。 【更多音频效果,请移步公众号文章】 测试结果显示,MusicGen的综合评分比谷歌的MusicLM高出了5.36%。 有网友给出了详细的测评体验: 这个模型似乎没有专门针对乐队名称进行训练,但用已有的风格生成音乐时表现非常好。……尽管(项目)网站中的示例是(开发者)挑选过的,但这并不能否定它可以生成好的作品。 如何实现 音乐的合成涉及多段旋律以及多种音色(乐器)之间的协调。 而不同于语音合成,人类对音乐之中的不和谐因素更为敏感。 那么MusicGen是如何完成这一复杂任务的呢? 我们先来看看它的训练数据。 Meta团队一共使用了两万小时的音乐。 这之中包括一万条内部搜集的高质量音轨以及ShutterStock和Pond5素材库中的数据。 来自后两者的数据量分别为2.5万和36.5万。 这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。 除了上述训练数据,Meta团队还准备了评价数据集MusicCaps。 MusicCaps由5500条专业作曲家谱写的10秒长的音乐构成,其中包括一千条平衡各个音乐流派的子集。 说完训练数据,我们来具体看看MusicGen的工作流程。 第一步是将声音信息转化为token。 这一步使用的是Meta去年研发的卷积网络编码器EnCodec。 至于编码方式,Meta团队通过实验对四种不同的方式进行了测试。 最终,团队选择了延时模式(下图右下)并进行了精准建模。 最核心的Transformer部分,团队训练了300M、1.5B、3.3B三个不同参数量的自回归式Transformer。 在混合精度下,训练上述三个参数量的Transformer分别使用了32、64和96块GPU。 对于文字处理,在评估了多个前人成果后Meta团队最终选用了Google团队2020年提出的T5模型。 对于音乐旋律的调整,团队选用了无监督的方式进行,规避了监督数据不佳导致的过拟合问题。 最终,Transformer输出的数据被转换为对数形式,然后根据编码本生成最终的成品。 体验方式...
AI绘画工具:stablediffusion的使用与效果展示
Stable Diffusion绘画工具

AI绘画工具:stablediffusion的使用与效果展示

stable diffusion是款开源的AI绘画工具,属于扩散模型变体,可生成多元化AIGC内容。用户需下载安装后进行简单配置,选择模型并输入提示词,即可了几秒生成一幅AI绘图。尽管操作简便,但stable diffusion能创作出丰富多样的AI内容,如漫画、插画和电商产品图等,对于欲尝AI生成的内容者,是个不错的选择。