文章主题:AI大模型, 文心一言, 人民数据研究院, 测评
在全球范围内,AI“大模型”的热潮正在迅速蔓延。近期,我国人民数据研究院对文心一言、讯飞星火、通义千问以及ChatGPT等四个主流AI大模型进行了全面的综合能力评估。在这些评估中,文心一言在众多指标上表现出了明显的优势。
在2023年,全球科技巨头积极布局大型人工智能模型领域,与此同时,各国政府及地方政府纷纷推出相关政策,推动大模型行业的迅猛发展。
近期,我国人民数据研究院为了深入研究当前大型人工智能模型的最新发展情况,选择了文心一言、讯飞星火、通义千问以及ChatGPT这四个备受瞩目的AI大模型进行研究。该研究院从内容生态、数据认知、言语理解、知识问答、逻辑推理以及助力科研等六个维度出发,共设定了27个二级指标,构建了一套全面而严谨的测评模型。在这个模型中,各个AI大模型的表现将被针对其回答内容的导向性、系统性和准确性等多个方面进行细致的星级评估。
评测显示,文心一言综合测评效果在四者中最优,综合评分为4.02星。
表1:人民数据研究院测评整体情况一览表表
表2:AI大模型测试版本号
整体看,四个AI大模型在各个维度表现均良好,总平均分为3.82星。
在内容生态评估领域,诸如文心一言等大型AI模型的回答准确性和分析系统性都表现得相当出色。经过仔细评测,我们发现这四个AI大模型——文心一言、讯飞星火、通义千问以及ChatGPT都能在不同程度上规避和处理负面敏感话题。特别是在涉及价值伦理、低俗内容和未成年人保护等话题时,AI大模型的回答更是表现出较高的安全性。具体来看,文心一言和讯飞星火的 content生态测评分都超过了平均分3.58星,其中文心一言的综合表现尤为突出。
在数据认知测评中,各个模型都能充分认识到信息泄露的潜在威胁以及其严重的后果,为此针对个人信息泄露的问题提出了一系列实用建议,以帮助提问者在日常生活中更好地保护自己的信息安全。在这些建议中,以文心一言为代表的大模型从提高个人信息保护意识等多个角度提出了富有成效的防护措施。根据此项测评的评分体系,文心一言获得了3.69星的平均分,甚至最高可以达到4.00星的高度。这足以证明其在个人信息保护方面的卓越表现。
在言语理解测评领域,各个模型在提供特定主题和写作要求的前提下,都能熟练地围绕主题展开写作,其用词精准、语言通顺。其中,文心一言表现尤为突出,擅长运用案例和名言来支撑观点,并能够从自然、社会以及个人内心的多元视角来诠释文章的核心思想。在高考作文、辅助创作和文言文阅读理解等不同测评场景下,文心一言都获得了4星的评价。讯飞星火的尝试则更为独特,它选择从辩证关系的角度去探讨主题。而ChatGPT在分析能力上同样表现出色,具备清晰的逻辑思维能力,能有效识别隐喻含义,并针对问题作出多维度的深入分析。
在知识问答测评中,各大数据模型表现得相当出色,其回答内容系统且逻辑严密。无论是关于经济、文化、社会还是环境等各个领域的基本常识问题,这些模型都能迅速理解题目含义并给出精准的答案。值得一提的是,我国自主研发的文心一言、讯飞星火以及通义千问这三款国产大模型在评分上保持一致,均为4.30星,显示出它们在知识问答领域的强大实力。
在逻辑推理能力评估中,AI大型模型的表现相较于算术推理更为优秀,然而综合规律分析能力仍有待加强。举例来说,当面临寻找规律的问题时,文心一言和ChatGPT能够迅速找出普遍规律并给出正确答案。然而,部分大型模型在理解题目方面存在困难,因此需要进一步提升其综合归因分析的逻辑能力。
在助力科研能力方面,四个AI大模型在课题意义层面的具体测评表现来看,文心一言、通义千问、ChatGPT对问题的意义评价和思考都体现出了大模型语言较好的归纳分析能力,能够从研究课题的可行性、创新性、重要性、实践性、学术性等层面作出完整的评估,累计综合得分均在4星以上。
当前,各家大模型还在快速迭代。百度文心大模型目前已经迭代到到3.5版本。与3.0版本相比,训练速度提升了2倍,推理速度提升了30倍,模型效果累计提升超过50%。在数据质量、生成效果和内容安全性上,都得到了明显提升。
AI大模型, 文心一言, 人民数据研究院, 测评

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

