文章主题:阿里云, 通义千问, 大模型, 邀请测试
近日,我国知名云计算服务商阿里云在其官方公众号上发布了一则重要消息,宣布其先进的人工智能大模型“通义千问”已正式开启邀请测试阶段。作为最早获得测试资格的媒体之一,南方有幸对这一具有重大意义的技术进行了深度探讨,并针对“通义千问”提出了包括“十问”在内的多项问题,以期对其功能、性能等方面有更深入的了解。
从一系列的回答中我们可以看出,“通义千问”已经拥有了与用户进行交互的能力,其提供的答案也具有较高的参考价值。特别是在行业话题,如“阿里巴巴集团分拆”上,能够做到客观、理性的分析。然而,当面临需要结合热点事件进行背景解读的问题,例如“员工因加班怒怼领导”的事件时,“通义千问”的回答显得相对模糊,无法深入热点事件进行具体反馈。另外,以“抖音与腾讯视频达成合作”为主题的新闻报道为例,我们发现“通义千问”的回答并未紧密围绕这一主题,基本保持在过往内容整合的阶段。
以“通义千问”为例,作为达摩院研发的超大规模语言模型,它在诸多方面相较于其他模型展现出显著的优势。首先,在训练数据方面,“通义千问”拥有庞大的数据集,这使得它能够更好地理解和掌握各种知识体系。其次,在对话理解能力上,“通义千问”表现出色,能够准确地理解用户意图,并生成恰当的回答。此外,“通义千问”还具备出色的代码写作能力,可以协助用户解决编程难题。最后,“通义千问”支持多种语言,能够满足全球用户的多元化需求。综上所述,“通义千问”凭借其丰富的训练数据、卓越的对话理解能力、高效的代码写作能力以及多语言支持等优点,成为当下最受欢迎的语言模型之一。
在评估“通义千问”当前表现时,我们需要对其能力进行评分。根据其性能,我们可以给予不同的分数,以反映其优劣。首先,对于那些分数低于60分的部分,我们无法给予及格的评价,因为这意味着它在某些方面没有达到基本的标准。然而,我们也无法简单地对这些表现进行批评,因为可能存在一些外部因素影响了它的表现。接下来,对于那些获得60至70分的部分,我们可以认为它已经展现出了相对较好的能力。虽然在某些方面可能仍有提升的空间,但总体上已经达到了一个可以接受的水平。然后,对于那些获得70至80分的部分,我们可以认为它已经展现出了非常不错的能力。在大多数方面都表现得相当稳定,并且在某些方面已经展示出超越平均水平的潜力。接着,对于那些获得80至90分的部分,我们可以认为它已经展现出了非常出色的能力。在各种领域都表现得非常出色,而且在许多方面都展示了卓越的潜力。最后,对于那些获得90至100分的部分,我们可以认为它已经展现出了极佳的能力。在所有领域都表现得非常优秀,而且在许多方面都展示了卓越的潜力,甚至有时可能会引领行业的发展。综上所述,我们对“通义千问”的能力的评分取决于其在各个领域的表现,以及与行业标准的比较。
【记者】叶丹
【实习生】顾超冉
【作者】 叶丹
【来源】 南方报业传媒集团南方+客户端
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!