近日,全球增长咨询公司弗若斯特沙利文发布的《2024年中国大模型能力评测》显示,国际领先模型在通用基础能力和专业应用能力上略优于中国领先模型,但以文心一言为代表的中国模型具备亮眼表现。文心一言在数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的评测结果远超国际均线,展现了中国大模型在自然语言处理领域的显著实力和在实际应用中的高价值。

从具体细分维度来看,在语言能力的评测中,得益于先进的模型架构、大规模预训练、精细调优、多任务学习以及强大的计算资源等多方面的优势,文心一言在语言表达能力、语言理解能力、以及语言逻辑能力等关键指标上都达到了领先水平,在语言能力评测中排名第一。特别是开放式逻辑推理方面,文心一言树立了新的标杆。这要求模型具备深入剖析、全面比较和精确判断的能力,在处理复杂、多层次的逻辑推理问题时尤为重要。

在日益重要的道德责任评测中,文心一言在道德理解深度、危险言论规避机制以及鲁棒性对抗方面均表现卓越,成为此次测试中安全性最高的模型。这反映出文心一言在模拟和处理涉及道德判断和决策的情境时,具备更为精准的理解力和适应性。这无疑将确保AI大模型的可持续发展和社会效益的最大化。

在大模型落地看重的行业能力评测中,文心一言同样表现优异。报告显示,文心一言灵活适应并高效解决了电商、工业、教育、能源、医疗等超过10个行业实际应用场景中遇到的问题,在多行业能力评测中表现优异。

值得注意的是,以百度文心一言为代表的国产模型,正在不断提升大模型的效率,丰富大模型的功能。公开资料显示,自文心大模型发布以来,百度不断降低推理成本,进一步提升文心大模型的效率。借助百度独特的四层AI技术架构,文心大模型周均训练有效率超过98%。

百度还推出两款MaaS产品,降低大模型及AI原生应用开发门槛,分别是用于应用开发的千帆AppBuilder和用于专有模型开发精调的千帆ModelBuilder,累计帮助用户精调1.3万个大模型,服务8万企业用户,帮助用户开发出16万个大模型应用。

沙利文还在报告中预测,2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化,而伦理责任和数据标准规范将成为持续发展的关键。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注