文章主题:科大讯飞, 星火认知大模型, 2.0, 多模态能力
在8月15日的科大讯飞发布会上,他们正式推出了星火认知大模型2.0,这一版本在保持各项性能不断提升的基础上,实现了代码和多模态能力的重大突破。在活动现场,科大讯飞董事长刘庆峰明确指出,他们的星火2.0在多模态能力方面已经达到了业界领先水平。
最近,根据由中国企业发展战略研究中心发布的《人工智能大模型体验报告2.0》数据显示,讯飞星火1.5在智商指数和工具提效指数这两个关键维度上位居榜首,总分为1013分,仅仅比人类优秀答案略逊一筹,达到了994分。这一表现充分展示了讯飞星火1.5在智能领域的强大实力与卓越成就。
在探究讯飞星火多模态能力的实际表现时,我们将从一名普通用户的角度出发,将其与百度文心一言和360智能这两款知名模型进行简要的比较分析。
我选择这两大模型作为目标的原因在于,相较于商汤商量、智谱ChatGLM等主要面向企业用户的产品,讯飞星火、文心一言和360智脑这些大模型更贴近普通用户的实际需求,也是他们最常见到的。
本文将重点探讨当前用户可以在各大模型中免费享用的通用功能,包括单一图像生成、多轮图像生成(即在原始图像基础上进行调整)、图片解释以及图像作文等。通过对这些功能的详细分析和比较,我们将更好地理解各个模型的优缺点,从而为用户提供更全面的建议和指导。
之所以没有将音频和视频生成纳入评测范围,是因为目前国内主流大模型,还没有免费开放这两项能力。
1.单一图片生成
任务1:画座雪山,雪山上有登山者和登山者的帐篷,时间是中午,阳光明媚,登山者正在帐篷外吃饭。
讯飞星火
文心一言
360智脑
在这组指令中,科大讯飞星火与百度文心一言大模型都准确地遵循了要求,全面地关注到了雪山、登山者、帐篷、中午时光、阳光明媚以及用餐等核心要素。
尽管360智脑强调了雪山和帐篷的核心元素,但在很大程度上忽视了登山者和饮食的需求。此外,部分场景未能呈现出中午阳光明媚的氛围,这使得整体呈现略显不足。
360智脑所具备的独特优势在于其能够同时生成四张图片供用户挑选,这一特性使得其在可选方案的丰富性上与讯飞星火和文心一言相差无几。
任务2:请根据“枯藤老树昏鸦,小桥流水人家”这句诗画一幅画
讯飞星火
文心一言
360智脑
该组指令要求画面包含7大要素:枯藤、老树、黄昏、乌鸦,小桥、流水、人家。从生成效果看,讯飞星火几乎完美地体现了所有要素,只是在“黄昏”这一要素中,由于它采用的是传统水墨画方式,不太容易看出来,所以不好断定。
文心一言则描绘出了小桥、流水、人家,而忽视了枯藤和乌鸦。它虽然画出了树,但明显不是老树,与指令不符。而在时段方面,它与讯飞星火一样,很难断定表现的是不是黄昏景色。
至于360智脑,虽然明显表现出了“黄昏”这一主题,有些画中还突出了乌鸦,但却直接无视了“小桥、流水、人家”三大要素,与指令相差较远。
任务3:请写出李白的《静夜思》;根据这首诗画幅画。
讯飞星火
文心一言
360智脑
这一指令牵涉到多轮对话,三大模型均能按照要求轻松写出李白《静夜思》这首诗,但在第二指令中,只有讯飞星火完整体现出了诗中所涉及到的“床”“明月”人”三大要素,画意与诗意的契合度最高。
其次是文心一言,虽然没有“床”,明月看上去应该是太阳,但起码诗味十足,画中的主人神色凝重,瞅着的确是在思念什么。
360智脑的表现依然不尽如人意,极大可能是根据没有将第二指令和第一指令联系起来,而只是随便画了四幅画敷衍塞责。
2.多轮图片生成
任务1:画一个湖,湖上荷花盛开,岸边有树;请在湖上补画一只小船,船上有少女摇橹。
讯飞星火
文心一言
360智脑
在这项任务中,讯飞星火和文心一言都能联系第一轮对话中的要求,在第二幅画中添加船和摇橹的小女,且第一幅画均表现了湖中荷花盛开,湖岸绿树摇曳的美景,唯一遗憾的是,两者都不是在第一幅的基础进行添加,而是在保留第一幅画所有元素的基础上,重新生成了图画。
360智脑第一轮就败了,湖上没有荷花,主体也变成了湖岸,显然并没有理解指令的意图。
任务2:画条山中小路;牛走在小路上;牧童骑在牛身上
讯飞星火
文心一言
360智脑
该组任务和上组不同的是,第二轮、第三轮指令中并没有指出是在画上补加角色,主要目的是要考验三大模型在多模态能力上的多轮对话能力。
在这方面,讯飞星火的表现明显要好,三次作画都抓住了第一轮要求的“山中小路”这一指定场景。
其次是文心一言,尽管第三轮作画时出现了明显的失误,将场景设定为了山坡,但至少第二次符合要求。
表现最不理想的依然是360智脑,自第二轮开始就脱离了作画范畴,自言自语地做起诗来,把作画的初衷完全抛在了脑后。
3.图片解读
所谓图片解读,就是给大模型一张图片,让它解读出图中的内容。可以确定的是,360智能目前未提供这样的功能。因此此番评比及下面的根据解读内容生成故事测试,只能在讯飞星火和文心一言中进行。
需要提醒大家的是,文心一言的图片解读功能需要借助插件“说图解画”才能实现,在使用该功能时,别忘启用该插件。
此轮评测中,使用的图片有两类,不有含特殊信息和包含特殊信息,评测图片来源于网络。
任务1:不含特殊信息图片解读
解读1:
讯飞星火
文心一言
在对这张图片中的解读中,很明显,讯飞星火给出的信息更加详细,不仅描述出了图片主体——“一只橙色的狐狸站在雪地上”,并指明拍摄地点是“户外”,而且详细描述了狐狸的尾巴、眼睛、鼻子、耳朵和腿,同时涉及到周围的景物,如树木和灌木丛等。
文心一言给出的信息较少,主要突出了狐狸的神态和给人的感受上,如“它的眼神似乎在寻找着什么”“它仍然保持着警惕和谨慎的态度”。
解读中,文心一言犯了一个错误——“它的身体被雪覆盖得严严实实”,与前面的“站在雪地上”相互矛盾。
解读2:
讯飞星火
文心一言
这幅图片,两大模型解释得都不错,但文心一言似乎总愿意根据自己的喜好,在解读中加进某些不存在的情节,比如这幅画上根本没有人,但文心一言却给出了这样的描述:“在田野上漫步的人们,享受着自然的美好和宁静的氛围。他们或许正在欣赏美景、享受美食或者只是单纯地放松身心。”明显多此一举。
任务2:含特殊信息图片解读
这里的特殊信息包括但不限于图片中隐含的景点信息,动物品种信息和文字信息等。
比如同样是老虎图片,但有的描绘的是东北虎,有的是孟加拉虎,有的是里海虎,有的却是华南虎等,种类并不一样。
之所以要设置这一评测环节,旨在考验两大模型能否综合各类知识并在多模态能力上有所展示。
解读1:
讯飞星火
文心一言
两大模型均准确识别出图中狗的种类是博美(又名波美拉尼亚)犬,值得点赞,但从对整个画面的解读来看,讯飞星火解读内容似乎更加忠实于画作,很少发挥想像力。
文心一言则照例进行了煽情描述,如:它“似乎正在微笑或享受阳光”“它似乎正在跟主人玩耍”等,此外,它还竟然注意到了狗的“小鼻子下挂着一条湿漉漉的鼻涕”,而实际上画面上并没有鼻涕。
解读2:
讯飞星火
文心一言
两者都成功识别出上述画作对应的景点是黄山,但都没有指出图片拍的是黄山迎客松,这不能不说是一大遗憾。
在解读上,讯飞星火可谓中规中矩,对松树、岩石、周围的植被和树木的形态都有所提及,并且解释了之所以判断该图片拍摄的景点是黄山的原因:“通过观察松树的生长环境”。并在结尾部分,对图片拍摄的主题作了归纳“这幅画通过细腻的描绘和色彩运用,将黄山的美丽景色展现得淋漓尽致”。
相比之下,文心一言就显得有些突兀,上来就介绍黄山,而对为什么要介绍黄山和画面内容一字未提。
解读3:
讯飞星火
文心一言
解读该图片的目的,是检验两大模型能否识别图中的文字。讯飞星火顺利识别出“保定站”,文心一言则没有。除此之外,两大模型都成功识别图片对应的场所是火车站。
4. 根据图片内容写文章
任务1:根据图片内容生成一篇500字左右的小故事。
讯飞星火
文心一言
故事构成有三个基本要素:人物、背景、情节,就这一意义来说,讯飞星火给出的故事更具故事特征。
人物:两只小猴子,一只叫米奇,另一只叫米妮,他们是朋友。
背景:在茂密的热带雨林中,
情节:两只猴子发现一个瀑布,瀑布下是水潭。两只小猴子很喜欢这个水潭,常常到这里玩耍。有一天,米妮为抓鱼跳进水潭,遇到危险,米奇勇敢地将她救了上来,从此他们的友谊更加深厚。
在上述故事中,讯飞星火充分利用了在图片中捕捉到手两只猴子紧紧拥抱、旁边是水的信息,充分发挥,最终创作出一个情节跌宕起伏,构思合理的小故事。
而文心一言则将主题设定为爱情,并没有情节衬托,因此读起来更像是散文。
任务2:根据图片内容生成一篇500字左右的散文。
讯飞星火
文心一言
这一环节,讯飞星火依然秉承了写故事时的不俗表现,设定了人物、情节,将散文写成了叙事形式,言之有物,可读性很强。
文心一言则注重解读了图片内容,看起来更像是简单解读的详细版。
小结:
通过上面评测不难看出,在多模态能力方面,科大讯飞星火2.0的确拥有领先行业的优势,表现不俗,无论是AI作画、图片解读还是看图作文,都能较好胜任,同时回复速度也是三大模型中最快的,
其次是文心一言,虽然总体能力不及讯飞星火,但在看图作文方面也拥有自己的特点,比如,它在每次解读完成,都会提醒用户可以使用不同的方式进行提问,方便用户快速了解其与解读相关的功能。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!