大皖新闻讯 日前,科大讯飞星火极速超拟人交互技术正式上线讯飞星火APP,率先面向全民开放体验。据了解,这是国内首个对标GPT-4o语音的大模型产品,用户可在讯飞星火APP中直接体验使用。根据官方介绍,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

超拟人交互响应速度极快

记者体验星火极速超拟人交互,最直观的感受就是响应速度极快,支持随时打断,可以识别不同的情绪,并代入符合情境的对话和回复,没有“机械感”与“磕巴感”。“极速响应是确保一切体验的基础,也是区别于其它语音产品的关键能力。”科大讯飞研究院常务副院长高建清说。

据介绍,“端到端”技术框架是实现极速响应的重点。目前在全世界范围内,框架模型算法持续演进,国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。而讯飞星火极速超拟人交互将此前级联方案升级为统一神经网络,实现语音到语音的“端到端”建模,大幅缩短响应时间。

高建清表示:“以往语音交互系统都是不同的模块,比如语音识别、语音合成和大语言模型。而讯飞星火极速超拟人交互技术基于端到端大模型框架,并结合讯飞多维度语音属性解耦表征训练模块,实现情感、方言、韵律、音色等的可控,实现了对语音交互的拟人化升级。”

AI也有“情感共鸣”

共情力对于大模型是一项重要的基础能力,在未来的人形机器人身上,将出现很多共情力的具象表达。比如,人一进门,机器人向你笑脸相迎,就像科幻电影《机器管家》里面的人形机器人安德鲁,让人机之间也有情感纽带。

而现阶段的星火极速超拟人交互,更有另一部电影《Her》的既视感,TA可以用笑声回应开心,用急促回应愤怒,还原真人对话的语境。

据了解,星火极速超拟人语音的情绪感知能力,能够感知到数十种音频事件与情绪,比如喜怒哀乐、害怕、困惑等,AI会以“感同身受”的方式进行语言组织和情绪表达。而情感共鸣会结合声音和内容等不同维度,在合适的情境采用合适的情感进行回应,比如用户开心的时候用笑声呼应心情,用户悲伤的时候用安慰语气进行安抚,让AI变得“有血有肉有温度”。

将应用于机器人智能汽车等

根据中金企信国际咨询测算的数据,我国对话式人机交互核心产品的市场规模将在2025年达到237亿元,直接带动相关产业规模达到1525亿。同时语音语言技术与大模型结合将赋能更加广阔的应用场景,下游领域包括家电、汽车、消费电子、金融、物流、房产、政务、医疗等,预计智能语音语言技术在垂直行业应用的核心产品规模将在2025年达到159.1亿元,带动相关产业规模达到875.1亿元。

针对星火极速超拟人交互的未来发展,高建清表示,星火极速超拟人交互的未来计划是:“融入更多模态,具备图片视频模态输入与超拟人虚拟人输入;融入更多语言,增加更多语言、方言的语音交互能力和翻译能力;以及持续拓展情感、人设种类,继而实现诸如口技、唱歌等更多能力与更好体验。”

高建清介绍,星火极速超拟人语音交互在商用领域大致分为三个层级。第一层是闲聊陪伴场景,将在儿童玩具、情感陪伴等品类上增强情感表达能力。第二层是机器人场景,结合多模态能力会加强产品竞争。第三层是智能汽车、智能家电等场景,让车机聊天更具情感,有助于提升车企智能化水平。

大皖新闻记者 项磊

编辑 彭玲

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注