星火_Page 6_666AI大模型

星火

科大讯飞不讲大模型的“性感故事”

文 | 山核桃 2024年的大模型故事，依旧热闹非凡。大洋彼岸外，从Sora的横空出世到Llama 3再度掀起的“开源 vs 闭源”之争，再到各类集成大模型能力的AI硬件……在通往AGI的征途上，为了让大模型落地，海外科技巨头靠着scaling laws（规模定律），并没有停下脚步。不久前，OpenAI创始人Sam Altman就在演讲中表示：“scaling laws依旧有效，GPT-5将比GPT-4聪明得多，我们还没有到达这条曲线的顶端”。 scaling laws是一条OpenAI验证过的道路，通过堆算力、卷参数，提升大模型能力，进而抵达真正的通用人工智能阶段。但回到国内大模型行业，scaling laws所面临的一个现实难题不仅是以芯片为代表的国内外产业链基础的差距，更关键的一个问题是：如何去发挥从移动互联网时期中国技术企业的场景和应用优势，在堆参数之外，找到让模型高效落地于行业应用的路径，将实验室里的模型能力转化为看得见的应用价值？在这一问题上，作为国内大模型行业头部梯队的科大讯飞，已率先找到了一条新路。 1、拼底座，破解技术焦虑的“正确姿势” 回到轰轰烈烈的大模型热潮，随模型参数量和数据集的增长，大模型的能力边界进而拓展与迭代，这无疑是scaling laws给国内AI玩家们所带来的关键启示。在行业过去残酷的“百模大战”里，尽管国内涌现出诸多行业模型和垂直应用，但如果提及国内大模型玩家的焦虑，排在第一依旧是“技术底座”上的难关，这包含两个核心问题：一是算力够不够用、好不好用？二是对标OpenAI的GPT-4/4V乃至未来的GPT-5等底座基础模型，国内通用大模型能力能否不断缩小差距？在算力层，据李飞飞的估算，最新一代人工智能模型的训练成本已达到前所未有的水平。比如，OpenAI的GPT-4预计使用了价值7800万美元的计算资源进行训练，而谷歌的Gemini Ultra则耗费了接近2亿美元的计算资源成本。回到国内，受地缘政治影响，在美国对华芯片制裁的外部压力下，国内大模型玩家不可避免地面临算力稀缺等问题。同时，大卷算力所带来的高昂算力成本，也抬高了大模型落地的门槛，算力太贵也是一大现实难题。缓解大模型落地的算力焦虑，上到国家政策支持，下到企业布局，均在行动。不久前，北京市发布《北京市算力基础设施建设实施方案（2024—2027 年）》，明确指出，将大力推动人工智能大模型与自主可控芯片开展适配，提升我国智能算力产业供应链的安全性、稳定性和坚韧性。作为中国人工智能的“国家队”，科大讯飞给出的思路是，打造国产化自主可控的算力底座，为大模型行业提供新的“算力选择”。为此，科大讯飞同华为强强联手，在算力底座上合力打造出了首个万卡规模的国产算力平台“飞星一号”，华为的硬件能力结合科大讯飞的AI技术沉淀，一个自主可控的算力底座为国内大模型生态注入了新的活力。在此基础上，底层模型能力的竞赛也在同步进行，国内外科技巨头都在加速追赶与超越GPT-4，对通用模型能力进行迭代。在国内大模型玩家中，科大讯飞为数不多对外公布其模型迭代具体时间表的科技企业。今年1月30日，科大讯飞发布的“讯飞星火V3.5”，在逻辑推理、语言理解、文本生成、数学答题、代码、多模态各个能力方面均实现大幅提升，整体性能已接近GPT-4 Turbo。不久前，科大讯飞又宣布了V3.5版本的能力更新，聚焦用户高效知识获取的长文本、长图文和长语音功能。以如今已成为大模型“标配”的长文本为例，目前星火大模型的通用长文本能力总体已达到GPT-4 Turbo，且在多个垂直领域的知识问答任务上，星火大模型长文本总体水平已超过GPT-4 Turbo。一个行业共识是，随着模型技术的收敛与行业竞争格局的演变，2024年，大模型的竞争焦点依旧落在通用大模型能力上。一方面，通用大模型的能力优劣决定中国大模型产业能否掌握自己的核心话语权；另一方面，唯有底层通用大模型能力持续提升，追赶国际最先进水平，行业大模型才能有更好的成效。围绕算力和通用模型上的持续加码，这是夯实技术底座的必由之路，也是破解技术焦虑的正确姿势。这也意味着，围绕技术底座的研发投入，也决定着国产模型厂商的未来身位。科大讯飞在研发投入上有自己清晰的节奏和策略。在近期公司业绩说明会上，科大讯飞董事长刘庆峰透露，2023年，科大讯飞基础大模型研发和行业应用研发中的比例约为7:3，今年，依旧会把50%的研发投入用于大模型底座能力上。刘庆峰预测：“中美之间的底座模型能力还存在半年到一年的动态追赶过程，但中国是唯一不会被彻底甩开的国家，科大讯飞作为中国的国家队正在持续缩小与美国同行的差距。” 2、拼落地，科大讯飞的“云、边、端”之道在scaling laws给大模型玩家们带来的“卷技术底座启示”外，眼下，告别火热吸睛“参数”等性感概念，大模型的竞争已进入到下一赛点——无论是做应用，还是抢客户，关注的重点都放在了模型落地和应用的广度与深度上。海外如微软、谷歌等科技巨头，不仅已加速将大模型能力集成已有产品矩阵中，同时也与诸多行业头部客户开展AIGC领域全方位的合作。客观来说，在“大模型如何落地”这一问题上，行业至今未能有人给出完美的范本答案。背后原因有两点：一是从供需两端看，由于大模型技术发展依旧属于早期阶段，需求方对自身业务落地大模型的需求和价值还在摸索，而作为供给方的模型厂商也在通过供给创新找到落地的范式。二是大模型技术是一种“生产力”，落地产业就需要建立起供需两端的循环体系，各参与方都要“有利可图”，比如行业和产业端需要的是更有性价比的大模型，而模型厂商同样需要借助大模型实现变现。大模型如何卷“落地”？科大讯飞给出的解题思路是——从现实的场景需求出发，“云、边、端”一体化、全场景布局，来满足各个复杂多元场景对大模型的需求。在云侧，科大讯飞在开始大模型技术攻关时就确立了“1+N”的大模型体系，在基础通用大模型外，同步面向各个行业落地行业大模型与产品应用...

7 days前 0

科大讯飞不讲大模型的“性感故事”

国内玩家能否复制ChatGPT？5月6日科大讯飞将给出答案

ChatGPT核爆科技圈，国内‘ChatGPT概念股’狂欢，为何科大讯飞坐冷板凳？

千架无人机点亮合肥夜空，科技盛宴如何震撼人心？