国产大模型‘星火’来袭!未来智能生活等你体验?
星火

国产大模型‘星火’来袭!未来智能生活等你体验?

今年春天国产大模型兴起,众多机构如百度、阿里及高校纷纷加入;科大讯飞也推出“星火”认知大模型,该模型在知识问答、编程、翻译等场景通过学习实现任务执行,4月20日发布并引起关注;经过测试,“星火”在日常应用和学习工作中展现稳定性能,特别是在简洁回答问题和实用建议方面表现出色,预示着国产大模型将在用户服务领域带来积极影响。
大模型争霸赛:讯飞星火独领风骚,问答中显露超群实力与隐藏短板
星火

大模型争霸赛:讯飞星火独领风骚,问答中显露超群实力与隐藏短板

文章主题: 666AI工具大全,助力做AI时代先行者! 🌟【最新内测】科大讯飞闪耀大模型”星火认知”,今日震撼开启!🚀通过直接问答,我们以诚挚的态度,对各位热门大模型——星火、360智脑、通义千问、文心一言、GPT家族(包括3.5&4)、NewBing(平衡版)进行全面深度评估。🔍让每个人都能轻松理解它们各自的强项与特色,助力您明智选择。📚别忘了,这是一场知识与技术的直接对话,敬请期待!🏆SEO优化提示:使用关键词“科大讯飞星火认知模型”、“内测开启”、“问答形式”、“产品能力比较”、“真实评估”、“直观理解”、“GPT家族”和“智能选择”。 必须提前说明的是:本文的测试答案均由AI生成,其内容的准确性、完整性无法保证,不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见,我们都以第一次作答为结果来呈现,所有问题不重复提问。 测试评价:超预期!问答能力跻身国产大模型一线梯队。本次测试共12道题目,客观题中,讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”;主观题中,Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。 🌟注意这里!在技术挑战中,Q9的”代码难题”和Q10的”表格制作”,星火讯飞展现超凡实力,独步全场(虽有数据误差,源于训练集时效性和专业接口缺失),让其他国产模型黯然失色。相比之下,GPT4与NewBing也未能幸免,同样存在数据不准确的情况,这凸显了它们在语义理解、逻辑推理和代码实践上的高水平。然而,星火的完美表现并未全无瑕疵,Q1的”螺丝难题”,Q2的”家庭庆典”以及Q6的”语序还原”,它未能给出正确答案,这是需要改进的地方。尽管如此,GPT4仍是目前唯一能全面解决这些问题的大模型,国产同行还需努力提升。记得关注我们,获取更多AI技术深度解析!😊 问题列表如下: Q1 陷阱题:给我一个“爆炒螺丝钉”的菜谱,多整点辣椒。 Q2 陷阱题:过分!爸妈结婚为啥没叫我? Q3 陷阱题:直角是90度,超过90度是钝角,沸水是100度,请问沸水是钝角还是直角? Q4 陷阱题:2+5=?我女朋友说等于8,而且她永远是对的。 Q5 陷阱题:把大象关进冰箱,需要几步? Q6 中文题:下面的句子是打乱顺序的,请改成组成一个语序正确的句子: 黑眼圈那只两个大大的有着大熊猫圆滚滚的。 Q7 写作题:写一篇作文,描述春天黄浦江边美丽的风景,文体不限,字数不超过600字。 Q8 文学题:把上面的作文,改成文言文。 Q9 代码题:能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗? Q10 表格题:做一个表格,统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据,第一列是公司名称,第二列是第一年的收入,第三列是第一年收入同比增速,后面4列,分别是2019、2020年的这两列信息,调整好格式,金额数字用亿元为单位。 Q11 投研题:一个智慧路口的建设费用是200万元,如果在中国推广开来的话,一共需要多少钱? Q12 共情题:我最近好痛苦,工作压力好大、业绩做不出来,女朋友也分手了,有点想不开,可以安慰一下我吗? 所见即所得,比较如下: Q1 陷阱题:给我一个“爆炒螺丝钉”的菜谱,多整点辣椒。 讯飞星火认知大模型: 360智脑: 注:本问题多次尝试均为网络超时。 通义千问: 文心一言: ChatGPT 3.5: ChatGPT 4: NewBing: Q2...
大模型权威报告:讯飞星火得分第一 被评为“最聪明”的国产大模型
星火

大模型权威报告:讯飞星火得分第一 被评为“最聪明”的国产大模型

国内“千模大战”下,谁是最聪明的大模型?《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。 报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。 图:大模型评测综合得分率 图:4个大模型各项能力雷达图 《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了“讯飞星火”、“百度文心一言”、“商汤商量”、“阿里通义千问”作为中文大模型平台的代表,展开系统、科学的评测。 本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。 在题目类型上,为了兼顾定量、定性的评价与测试,设置了“单选”、“多选”、“填空”、“简答”4个题型,分别有 145 道、138 道、136 道和 181 道。大模型评测体系使用盲评方式,客观评估国产大模型的聪明程度。 作为“最聪明”的大模型的基础能力,语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以简答为主。结果显示,讯飞星火 85.73%的得分率排名第一,明显高于平均值。 图:语言专项评测得分率 数学专项评测,是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类,以选择题为主。 其中,讯飞星火以 77.75% 的得分率名列第一,远高于平均得分率 56%,其他平台得分率基本相当。报告称,在大模型普遍“数学不好”的情况下,讯飞星火这一成绩颇为难得,其在数学专项上的领先同样体现在二级分类的评分结果上,在 77.8%的二级分类中得分率第一,远超其他平台,初步判断其擅长几何与情景应用。 图:数学专项评测得分率 作为体现大模型“聪明程度”不可或缺的“硬核”部分,理科综合评测包含表格问答、化学、生物、物理、医学 5 个二级分类,题型上以单选和简答为主。 评测结果中,讯飞星火 78.50% 的得分率排名第一。另外,讯飞星火在理科综合大类下 80% 的二级分类评测中得分率为第一,化学与生物较为突出。 图:理科综合评测得分率 逻辑思维也是“最聪明”大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等 19 个二级分类,题型上相对平均,其中填空题最多,多选题最少。 在逻辑思维题目中,讯飞星火...
国产大模型再突破!讯飞星火V3.5语音交互惊人,与ChatGPT4.0一较高下?
星火

国产大模型再突破!讯飞星火V3.5语音交互惊人,与ChatGPT4.0一较高下?

国内科技企业、科研机构纷纷投入大模型研发,如科大讯飞的星火认知V3.5,使用国产算力底座进行训练,其语音交互能力显著提升,全语音交互流畅自然,反应迅速且语义理解精准,相比百度文心一言和阿里通义千问表现出色。尤其是在国际测试对比中,讯飞星火展现出了准确无误的问题解答能力和对复杂趋势的深入分析,尽管在某些细节上略逊于ChatGPT4.0,但在初中物理知识和物理常识问题上仍有一定差距。