文章主题:
来源|多知网
作者|冯玮
2024的第一个月还没结束,科大讯飞再次交出了成绩单——星火认知大模型3.5版本。
科大讯飞董事长刘庆峰在发布会上介绍,星火V3.5基于全国产化算力底座“飞星一号”平台,在逻辑推理、语言理解、文本生成、数学答题、代码、多模态各个能力方面均实现了提升。
同时,星火V3.5的语言理解、数学能力超过GPT-4 Turbo,代码能力达到GPT-4 Turbo的96%,多模态理解能力达到GPT-4V的91%。
而除了原有模型的升级外,讯飞还发布了多款新品:搭载星火V3.5的智慧黑板、星火语音大模型、适配国产算力的讯飞星火开源大模型“星火开源-13B”……
大模型参与者在过往官宣新版本时常常以数据形容升级,而维度、产品特质等限定条件也让外界逐渐对数据本身的意义开始脱敏。
好在发布会上刘庆峰与相关业务负责人演示了八个案例。
这些案例中,有说东北大碴子味儿的语音交互,有把PPT拿捏住的应用工具,还有越来越不费老师的智慧黑板……
总结来说,星火V3.5“生动”多了。
01
演示一:星火语音大模型,超越OpenAI Whisper V3?
在刘庆峰看来,大模型给语音技术发展,包括语音合成、识别、多语种等方面带来了全新的机会。
让机器具备学习、推理和决策的能力,就是认知大模型要干的主要工作,刘庆峰强调:“简单来说,借助大模型,我们让一段语音具备更加丰富的属性,有语种、有内容、有韵律、有音色,还有情绪。”
这也让这次的新品星火语音大模型有了不错的基础条件和足够大的发展空间。
据介绍,星火语音大模型在中文、英语、法语、俄语等首批37个主流语种的语音识别效果超过OpenAI Whisper V3。
在多语种语音合成方面,星火语音大模型的首批40个语种拟人度超83%……
不同于常规的语音大模型,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中,比如语种表征、内容表征、韵律表征、音色表征。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。
目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面,其即将上线多语种自动识别和增强式翻译两个功能。
其中:讯飞翻译机多语自动识别升级,将支持35种语言,为跨语言沟通提质增效;增强式翻译提供中英双语服务,让跨语言交流更加省心出彩。
不只是助力跨语言沟通交流,星火语音大模型还赋能千行百业新应用场景——刘庆峰介绍,在汽车、客服、家庭、陪伴机器人等场景中,星火语音大模型还有更多落地机会。
02
演示二:上课!多位科学家随时stand by
刘庆峰认为,作为改变人类未来生产生活方式的重大技术突破,优先应该为孩子赋能、为教育赋能。
具体在教育场景上,此次讯飞星火智慧黑板有了一定升级。
老师一声上课,讯飞星火智慧黑板就开始工作,所有的互动流程都可以以最简单的语音词汇来启动。
而基于星火多模态能力大幅提升,复杂图形和公式的理解效果,快速呈现标准板书,还可智能推荐、实验微课等相关的情境资源,同样结构化学有机式也可以直接书写,同样可以识别快速推荐相关的情景资源。
也就是说,不管是数学、化学,立体几何还是化学方程式,只需在黑板上画一下,就能识别成书面格式,并且支持编辑。
在数学课上讲解立体图形的时候,学生有时难以进行空间想象与理解,现在我们可以直接绘制快速识别,还可以进行颜色的填充以及不同形式的展开收起直观地呈现三维和二维之间的变化,还可以进行堆积。
星火3.5的全新发布也进一步升级了英语情景对话和科普问答的能力,我们也把这两项应用融入了星火智慧黑板,打开情景对话,在英语课上我们提供了口语对话能力,还可智能纠错。
基于联合科普中国、少年儿童出版社发布的科普大模型,在科学课上,李白、爱因斯坦等众多海内外历史名人或科学家通过虚拟人形象走进了课堂,用易于理解的语言,用孩子们喜欢的科学家形象来回答孩子们脑洞大开的科学问题。
授课过程中的声音、文字、屏幕画面、板书都可无感知伴随式采集,并形成结构化的课堂实录,完整还原教学全过程。
同时,课堂实录还可以自动切片,点击切片就可以快速定位到对应的知识点,并根据课堂环节形成图文课堂纪要和思维导图式的课堂脉络。
刘庆峰解读,“全自然的交互可以让老师可以从黑板上走到学生中间,摆脱黑板这个方寸之地,然后进一步通过虚拟人辅学,带来了在基层特别稀缺的语言的教师以及科普教师等等,包括其实我们正在做的代码等等,这些东西都可以通过在黑板上呈现出来。”
让黑板从板书的工具成为教师的AI助手,这或许本就值得期待了。
03
演示三:有京腔又会东北话的星火,聊天儿很顺
科大讯飞副总裁、研究院院长刘聪演示了星火在自由聊天模式下的语音合成、语意理解等能力上的提升。一个一口北京腔、儿化音使用流利的男声(聆飞逸,女声为聆小玥)首先回应了“几天不见,最近在忙啥呢?”
“我最近忙得跟个陀螺似的,一会儿再陪这个朋友聊天,一会儿再回答那个朋友的问题。不过咱也乐在其中,毕竟能帮到别人一件很棒的事。你最近是不是也特别忙?”
在听到使用者回应最近“忙着改年终总结PPT,改了好几轮,老板都不大满意。”
星火也感同身受“这事儿确实挺郁闷的,不过年度规划老板要求高也是正常,你别太焦虑了,可以琢磨点开心的事情。比如熬过这几天就过年放假了。”
同时星火还表达了自己在过年期间会听听音乐看看书,并强调自己“哪儿也不去,就待在家里”,而在听到使用者计划带家人在春节去旅行时还特别说道“忘了好多人过年旅游吗?”
有意思的是,星火还用东北话介绍了东北特色:“俺跟你说冬天哈尔滨那是相当不赖,到处都是白茫茫的雪地和色彩斑斓的冰灯。美食也贼多,有哈尔滨红肠、马迭尔冰棍、锅包肉、地三鲜啥的,还有放假人指定老多了,各种预约买票可以提前整起来。”
……
据介绍,星火V3.5在交互体验上相较于前一版更加流畅和自然,也更加善于感同身受。
刘庆峰强调,表面的语音对话背后是多个核心关键技术的迭代升级,包括语义理解、指令跟随、多轮对话、情绪感知、拟人合成等。
“当然语义理解我们目前还是以中文为主,语义理解、拟人合成我们已经超过了GPT4-Turbo的最新水平,指令跟随、多轮对话、情绪感知还在快速跟进过程中。”
“特别是多轮对话,大家可以看到都是在60多分还不到70分,我想还有一个非常重要的原因,是因为我们的飞星一号刚刚开始90多天,而且我们运行过程中还有很多工具调用的过程,我们训练时间还短,我们非常有信心,今年上半年还会有非常大的提升。”刘庆峰说道。
04
演示四:年终的PPT难关,有解了?
PPT是不少打工人正在困扰的事情。
星火V3.5中推出了全新的工具应用讯飞智文,这款产品主要功能有文档一键生成、AI撰写助手、多语种文档生成、AI自动配图、多种模板选择、提供演讲备注功能等。
在PPT使用环节,用户进入后可以根据不同场景和需求,在“主题创建”、“文本创建”、“文档创建”和“自定义创建”中找到适合自己的工具。
刘聪在自定义创建中以合肥旅游为主题给出了要求,希望星火V3.5可以帮助他生成一个有针对性的推广策略PPT。
整个生成过程中:星火V3.5先是基于要求提供了一个基础版PPT;又结合刘聪导入的参考文档和素材丰富了旅游、特色美食、民俗活动、研学等内容;再根据素材丰富了出行体验和出行建议;同时结合文章素材中的数据呈现为图表生成在PPT中;最后选择适合的风格进行定版。
几十秒,生成了一个22页的PPT。
刘庆峰强调,演示的背后有三个关键点。
其一,真实的应用场景,“其实刚才所有的工作,包括最终生成虚拟人来直接讲解,都可以一键生成,但是我们觉得在真实过程中,一定要让用户在中间人机共创,才代表了既是人工智能时代的技术追求的方向,也应该是他的将来的基本理念的追求,所以我们把很多过程让用户可以参与进来。”
其二,个性化,“在通用平台上更加有个性化,所以各种数据可以随机的放进去。”
其三,不局限于单一任务,“在整个的生成过程中,我想他已经不仅仅是帮助我们写PPT,其实他写完这个PPT我们有非常多的企业以及单位对外宣传的书面材料,而这个书面上如果一旦变成PPT变成图文并茂,同时还有虚拟形象来帮助讲解,我觉得也是极大的提升了我们从内容学习传播的效率。”刘庆峰解读。
除了以上工作环境下的具体场景外,现场还展示了V3.5在数理逻辑上的进步,没错,大模型又开始做题了。
05
演示五:传统节目,又要做题了
一如既往,数理逻辑推理是每位大模型在发布会上绕不开的“表演环节”。
首先是一道物理题——盆里面漂浮着一块冰,冰融化后脸盆的水面是上升还是下降——一道常见的题,但绝大多数人的答案一般是冰块融化后变成水,与之对应的,盆里的水也多了。
但星火V3.5基于阿基米德原理和二力平复原理,得出排出水的重力等于物体的重力,加入之后体积不变,既不上升也不下降。要回答这样的问题,背后是需要有比较坚实的基本上理论一些东西。
第二道题是一道空间题,一个人出门散步,前进20米,右转60度,前进20米,再右转60度,如此反复下去,请问他能不能回到原点?如果能回到原点,一共走了多远?
星火基于六边形轨迹计算得出六次回到原点,给出周长即为距离。
刘庆峰也在发布会上笑称,时至此刻,星火对于逻辑和方位时空的能力已经提升了不少,将来再做机器人的时候,应该也不会迷路了。
06
演示六:从巴洛克到诗词主题房
星火3.5版本对多模态能力同样进行了提升,之前的发布会上,刘聪让星火通过一张照片去写一首诗或朋友圈的文案。但在今天星火已经可以根据一张毫无备注的图片进行分析。
刘聪给出了一张户型图,星火也很快进行了注释,并根据不同的区间给出了建议。
这个部分也可以看到,星火通过一些物体的识别表现的实体之间的联合学习也进一步增强。
在此基础上,刘聪又提出了巴洛克和中式装修风格,同时还对中式装修提出了新的要求,根据“竹外桃花三两枝,春江水暖鸭先知”的意境,重新设置。
星火也都给出了自己的想法。
“不光是多模态能力,跟我们说的一的底座,我们认知大模型的底座,对语言的描述理解精细的掌控其实都是相关的。”刘聪解读。
07
演示七:首个“全栈国产化”开源模型
iFlytekSpark-13B正式开源。
即,包括基础模型iFlytekSpark-13B-base、精调模型iFlytekSpark-13B-chat,还有微调工具iFlytekSpark-13B-Lora,以及人设定制工具iFlytekSpark-13B-Charater在内的全栈自主创新的套件,有需要的B端用户都可以直接选择并且自主训练。
从性能来看。
在C-EVAL、MMLU、CMMLU、AGIEVAL、FinancelQ等多项榜单测试中,与同尺寸开源模型相比,iFlytekSpark-13B均具有一定的优势。
而针对典型的应用场景,iFlytekSpark-13B在文本生成上提升23%,在语言理解上提升13%,文本改写提升25%,行业问答提升50%,机器翻译提升17%,头脑风暴提升29%。
针对算力安全问题,科大讯飞提出了一种全新的实践方案——“全栈国产化”开源。
08
演示八:拆解内容,可以更有“层次”
星火Desk的相关能力也有一些升级。
刘聪先找了一篇网上刚刚结束的两会相关内容,文章不长但信息量比较大,拷贝后要求星火Desk根据内容,针对2023年安徽省科技发展成果和2024年计划提几个问题,并且找到取得了哪些突破。
其后刘聪也继续进行了针对性的问题设计,包括详细解答其中的一两个问题和拆解层次。
刘庆峰解读:“其实刚才虽然我们看到的非常简单的这篇文章拿过来,它自动理解才能自动提出问题,然后它不光能够理解篇章的问题,它还能够自动在外围搜索更扩充的内容,才能更好的回答问题。”
“那么如果新产品的推出,新服务的推出,新的促销方案以及客服要求等等,只要给他相关素材,马上可以学习,马上可以考核。”
……
在1月29日公告中,科大讯飞预计2023年归母净利润6.45亿元至7.3亿元,同比增长15%至30%;2023年在保持毛利率不低于上年的情况下,预计实现营业收入超过200亿元,较上年增长约7%。
科大讯飞今日股价一度涨超6%,截止今日收盘,科大讯飞股价报41.14元/股,涨1.41%。
“随着这些基础能力的提升,我觉得我们往现实世界真实场景的刚需赋能的能力进一步大幅提升”,刘庆峰最后说道。
END
本文作者:冯玮 《教育科技这一年·2022》+《培训行业这一年·2021》+《教育科技行业图谱2022-2023》,重磅发售!套装优惠价169元,闭眼入!迅速点击文末“阅读原文”购买,手慢无!点击阅读原文购买↓
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!