文章主题:苟日新,日日新,又日新,模型迭代速度
经济观察网 记者 钱玉娟 4月10日,商汤科技董事长兼CEO徐立对外宣布,公司在“大模型+大算力”的战略下,通过AI大装置SenseCore打造出了AGI(通用人工智能)实现的基础设施——一个大模型体系。该体系具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力,被命名为“日日新SenseNova(下文简称:日日新)”。
“苟日新、日日新、又日新。”这句话出自《论语》,意思是每一天都要保持学习的心态和态度。徐立在分享商汤科技模型命名的背后含义时,也希望表达出这样的理念:模型的迭代速度和处理问题的能力需要不断地更新和提高,“商汤科技致力于不断探索人工智能(AGI)的无限可能性,以实现模型的每日更新和进步。”
商汤科技联合创始人兼首席科学家王晓刚认为,商汤的AGI所催生的新研究范式具有重大意义。这种新范式基于一种强大的多模态基模型,并通过强化学习和人类反馈不断挖掘该模型的新潜力,以期更有效地应对各种开放式的任务挑战。在这一过程中,强化学习技术发挥了关键作用,它能够根据任务的特性,动态调整模型的行为策略,并在不断的实践中实现与人类智能的有机结合。这种新范式的提出,无疑为我们理解和利用人工智能提供了全新的视角和方法,也预示着人工智能在未来可能带来的巨大变革。
在“日日新”大模型体系支撑下,商汤科技成功研发出各类生成式AI模型及其应用。这些成果包括AI生成的图像和文本,2D/3D数字人制作,以及大规模场景和小物体生成等多个领域。
大模型的“超市”
自 ChatGPT 面世以来,自然语言处理技术受到了广泛关注,尤其是在国内科技互联网行业,众多企业纷纷将自然语言处理视为关键领域,致力于研发大型自然语言模型,其中就包括商汤科技。
在”日日新”大模型体系的支持下,商汤科技成功研发了一款名为”商量SenseChat”的语言大模型。该模型经过大量的数据训练,包括千亿级别的参数,充分考虑了中文语境的特点,并在现场展示了其对中文文本的深入理解和精准处理能力。
据记者报道,商汤科技所推出的“商量SenseChat”具备多项功能。首先,它可以编写和调试代码,为用户提供便捷的编程服务;其次,该产品能为用户提供了个性化的医疗建议,帮助他们更好地照顾自己的健康;最后,它可以从复杂的文档中提取关键信息并进行概括,从而帮助用户快速获取所需的知识。总之,商汤的“商量SenseChat”可以视为编程、健康咨询以及PDF文件阅读等领域的“助手”,为用户的各种需求提供支持。
不只是语言大模型,“日日新”还为政企客户提供了API接口,既包括图片生成,自然语言生成,视觉感知通用任务与自动化数据标注等服务,还可以提供大模型并行训练和模型增量训练服务,便于客户在大模型基础上进行自身垂直领域、行业的自定义模型开发等。
技术创新能力,往往是内生外化的。商汤基于“日日新”大模型体系中的基于视觉大模型,帮助自身提升了在智能驾驶领域中,对环境、行为及动机的解码能力;它还会面向行业开发者开放大量预训练模型及AI开发工具链,以此帮助客户提升开发效率等。
在徐立的规划里,商汤在推出“日日新”大模型体系后,便为上下游提供了一个大模型的“超市”,其中有数据、模型训练以及部署相关。
“商汤已建立了全栈的大模型研发体系,并已在多个行业场景中落地。”王晓刚觉得,从场景的多样性,任务的复杂度以及数据的丰富度等多个维度看,都反映出商汤大模型的能力。
这种“既要有,还得全,最后还能对外供给”的能力,在深耕人工智能产业的量子位联合创始人李根看来,“这种能力不是谁都有的。”
需要提及的是,商汤早自2018年左右就洞察了大模型趋势,也是中国较早押注进行相关规划的公司。但“模型太大、参数太多、训练成本太高。”李根告诉记者,商汤被迫走上了一条自建算力中心、自己造芯片的道路,由此摸索出的是一种提供模型与算力的商业模式,即“从提供掘金工具,到卖水卖服务。”
大模型的“超市”,当商汤将这个目标定位打出来,陈根只觉得,不过是当下时间点将大模型体系推到了台前,“积累的工作,商汤早在之前就完成了。”
入局底气何在?
徐立指出,“在AI大模型时代,数据、算法和算力这三要素也在经历新的演变。”
首先,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,这也必然会导致对算力需求的剧增。
正因当前业界训练大模型对大算力的需求旺盛,但真正好用的基础设施又是稀缺的。商汤则历时五年,不仅建设了AI大装置SenseCore,还基于大装置的能力,构建起了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。
一组数据显示,商汤的AI大装置上共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS的总算力,是亚洲目前最大的智能计算平台之一。基于此,商汤实现“大模型+大算力”的融合创新研发体系。
记者采访了《ChatGPT:读懂人工智能新纪元》一书作者、前沿科技领域作家陈根,他总结认为,商汤目前阶段有两大优势,一是它没有被制裁前,在算力层面比较领先,但“这种领先只能是相较同样被制裁环境下的大厂有领先性,不代表明天和后天仍占优势。”
另外,商汤从人工智能技术研发与理论研究层面来讲,“它拥有华人领域比较优秀且庞大的人工智能专家团队。”
在陈根看来,入局大模型,比拼的不仅仅是模型能力,还有模型的调参优化、数据训练、算力支持等多维度能力的考验。他以谷歌为例,同样拥有算力、数据、模型三方面优势,“但在模型调参优化上没能突破,最终挑战OpenAI也失败了。”
陈根指出,大模型的技术体系不难,甚至是公开的,有人工智能技术团队的企业都可以快速搭出来,但能不能用却是另一回事。从目前来看,他觉得模型愿景是否明朗以及技术实现与否的评价标准,“就是敢不敢公测。”
尽管商汤在官宣现场进行了实测,但被记者问及测试账号信息时,相关人士回应称,“目前这是主要面向B端的技术”,其表示,商汤日日新大模型体系开放面向政企客户的API接口,客户可以登录商汤官网申请,后续或有序开放To C的测试账号。
商汤方面表达着对大模型研发的一种期待,“在数据量上、参数结构上、以及能处理的问题上,可以日复一日的提高。”
陈根觉得,从现实来看,商汤依然面临训练数据、参数优化、硬件算力等方面的硬伤,这并非孤例,他告诉记者,当下各大厂开发的大模型,都仍处于研发、训练阶段,“不日日新、不日日抓紧优化、调参、训练,就没办法实现公测,也没办法投入使用。”
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!