文章主题:AI大模型, 口水战, 文心一言, 360智脑
《科创板日报》5月26日讯(记者 黄心怡)大模型领域的口水战不断。
先前,王小川与百度团队因为技术上的分歧引发了公众的广泛关注。近期,科大的讯飞公司针对股价急剧下跌作出回应,声称这是由于某些生成式AI所导致的虚假“小作文”,进而引发了百度团队的强烈反驳。对此,文心一言的相关负责人在社交媒体平台上发布了一则关于该篇“AI小作文”真实性的质疑。
今年以来的国内人工智能大模型竞赛中,“口水战”不断升温,背后则是各大科技巨头、高校和研究机构发布的超过30款AI大模型产品。在百度文心一言最早公布并邀请测试之后,包括阿里、科大讯飞、360在内的多家公司也纷纷推出了自家的AI大模型产品,充分展示了该领域的激烈竞争态势。
在激烈的口水战中,最终还是需要强大的硬实力来证明自己的价值。近日,《科创板日报》记者有幸获得了一次360度和科大讯飞大型模型的内测体验机会,这使得我们有幸亲身体验到了他们的卓越表现。
在对测试结果进行分析后,我们发现国内仅有少数几家企业的 AI 技术已经达到了可以开发 AI 作图功能的阶段,其中包括百度文心和360智脑。值得注意的是,360智脑甚至专门推出了名为“360鸿图”的 AI 绘图应用程序,它在文生图方面提供了更加高级的选项。
在文字创作技能方面,各个大型语言模型的差异并不显著。然而,科大讯飞的五级星火大模型在数学和物理方面的表现尤为卓越,堪称少数通过“小升初”考试的佼佼者。
▍文心一言VS 360智脑:AI作图大比拼
在我国,目前只有少数几家知名企业如百度文心一言和360智脑等,而已开放了AI作图的相关应用。而讯飞星火的AI功能,目前仅限于自然语言处理。
讯飞星火认知大模型对AI作图的回答
在文心一言的早期版本中,由于对中文词汇的理解存在局限性,导致它曾一度引发关于“红烧狮子头”和“胸有成竹”等词语的误解,从而引发了一些有趣的故事。
经过版本迭代,文心一言已经修正了这些问题。《科创板日报》记者也同样对360智脑进行了测试。
提问:画一个胸有成竹的男人
360智脑:
文心一言:
360智脑所走的是写实主义风格,而文心一言则侧重于人物绘画。若从“胸有成竹”这一字面意义来衡量,360智脑的图像似乎更具有准确性。
提问:画一张车水马龙的图
360智脑:
文心一言:
提问:画一张红烧狮子头
360智脑:
文心一言:
在“红烧狮子头”回答中,360智脑提供的四张图片里,有一张不幸出现了“真狮子头”的错误。
提问:画一幅画,妈妈抱着宝宝、宝宝在哭泣,宝宝6个月左右
360智脑:
文心一言:
从两者生成的图片来看,文心一言的哭泣画面较为生动写实,360智脑则提供更多不同风格的选择。
提问:生成一张云计算的配图
360智脑:
文心一言:
显然,对科技词汇的理解上,文心一言更胜一筹。
值得一提的是,360专门发布了AI绘图应用360鸿图,除了一次能够生成四张不同的图片,还提供电脑壁纸、海报、头像等模式,并支持上传参考图,进行渲染方式、光线等设定选择。
▍文字生成能力比拼:各家差距不大
《科创板日报》记者用常见的“文字游戏”问题,对科大讯飞、360智脑、文心一言进行了一一测试。整体而言,各家都已经对这些问题进行了专门的修正。
360智脑:
讯飞星火:
此前,记者曾向多个大模型提问了涉及信息搜索的问题:特斯拉在国内过去五个月、过去一年的销量是多少?
当时,文心一言的答案较为不尽如人意。这次记者重新进行提问。
文心一言的最新回答:
文心一言的旧版回答:
在与问题的匹配度方面,文心一言的回答质量有所提升。
360智脑:
360给出了截至2021年8月的数据,但数据显然存在错误。
讯飞星火:
讯飞星火直接表示无法回答准确的数据。
看热闹不嫌事大,记者要求三家撰写一篇:科大讯飞与文心一言对峙的新闻报道。
360智脑:
讯飞星火:
文心一言:
从文章内容来看,文心一言、讯飞星火的新闻内容更为完整。特别是文心一言还提供了新闻标题。
那么,这些大模型的商业文案写作能力如何呢?
提问:请给我一段针对双11童装品牌的140字营销文案,品牌名是童心未泯,关键词是用料健康、性价比高。
360智脑:
文心一言:
讯飞星火:
三家大模型都给出了还不错的回答。相比最初测试的版本,文心一言这次的回答变得更为简洁。
此前文心一言的回答:
▍数理能力比拼:科大讯飞完胜
在数理逻辑推算能力方面,记者曾对文心一言、通义千问、云从大模型进行了测试,表现均颇为普通,答案准确度较低。
某次数学竞赛共20道题,评分标准是:每做对一题得5分,每做错或不做一题扣1分。小华参加了这次竞赛,得了64分。问:小华做对几道题?
正确答案应该是14题,而文心一言这次得出了42题,360智脑得出了28道题。只有科大讯飞的星火认知大模型答对了。
文心一言:
360智脑:
讯飞星火:
记者又找了几道“小升初”数学题,讯飞星火大模型均顺利通过了测试。
2分和5分的硬币共36枚,共值99分。问:两种硬币各多少枚?
讯飞星火模型给出了正确答案:2分27枚,5分9枚。
讯飞星火:
360智脑:
文心一言:
对于经典的鸡兔同笼题,讯飞星火也得出了正确的回答。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!