商汤科技：每日更新，探索AGI无限可能

文章主题：苟日新,日日新,又日新,模型迭代速度

经济观察网记者钱玉娟 4月10日，商汤科技董事长兼CEO徐立对外宣布，公司在“大模型+大算力”的战略下，通过AI大装置SenseCore打造出了AGI（通用人工智能）实现的基础设施——一个大模型体系。该体系具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力，被命名为“日日新SenseNova（下文简称：日日新）”。

“苟日新、日日新、又日新。”这句话出自《论语》,意思是每一天都要保持学习的心态和态度。徐立在分享商汤科技模型命名的背后含义时,也希望表达出这样的理念:模型的迭代速度和处理问题的能力需要不断地更新和提高,“商汤科技致力于不断探索人工智能(AGI)的无限可能性,以实现模型的每日更新和进步。”

商汤科技联合创始人兼首席科学家王晓刚认为，商汤的AGI所催生的新研究范式具有重大意义。这种新范式基于一种强大的多模态基模型，并通过强化学习和人类反馈不断挖掘该模型的新潜力，以期更有效地应对各种开放式的任务挑战。在这一过程中，强化学习技术发挥了关键作用，它能够根据任务的特性，动态调整模型的行为策略，并在不断的实践中实现与人类智能的有机结合。这种新范式的提出，无疑为我们理解和利用人工智能提供了全新的视角和方法，也预示着人工智能在未来可能带来的巨大变革。

在“日日新”大模型体系支撑下，商汤科技成功研发出各类生成式AI模型及其应用。这些成果包括AI生成的图像和文本，2D/3D数字人制作，以及大规模场景和小物体生成等多个领域。

大模型的“超市”

自 ChatGPT 面世以来，自然语言处理技术受到了广泛关注，尤其是在国内科技互联网行业，众多企业纷纷将自然语言处理视为关键领域，致力于研发大型自然语言模型，其中就包括商汤科技。

在”日日新”大模型体系的支持下，商汤科技成功研发了一款名为”商量SenseChat”的语言大模型。该模型经过大量的数据训练，包括千亿级别的参数，充分考虑了中文语境的特点，并在现场展示了其对中文文本的深入理解和精准处理能力。

据记者报道，商汤科技所推出的“商量SenseChat”具备多项功能。首先，它可以编写和调试代码，为用户提供便捷的编程服务；其次，该产品能为用户提供了个性化的医疗建议，帮助他们更好地照顾自己的健康；最后，它可以从复杂的文档中提取关键信息并进行概括，从而帮助用户快速获取所需的知识。总之，商汤的“商量SenseChat”可以视为编程、健康咨询以及PDF文件阅读等领域的“助手”，为用户的各种需求提供支持。

不只是语言大模型，“日日新”还为政企客户提供了API接口，既包括图片生成，自然语言生成，视觉感知通用任务与自动化数据标注等服务，还可以提供大模型并行训练和模型增量训练服务，便于客户在大模型基础上进行自身垂直领域、行业的自定义模型开发等。

技术创新能力，往往是内生外化的。商汤基于“日日新”大模型体系中的基于视觉大模型，帮助自身提升了在智能驾驶领域中，对环境、行为及动机的解码能力；它还会面向行业开发者开放大量预训练模型及AI开发工具链，以此帮助客户提升开发效率等。

在徐立的规划里，商汤在推出“日日新”大模型体系后，便为上下游提供了一个大模型的“超市”，其中有数据、模型训练以及部署相关。

“商汤已建立了全栈的大模型研发体系，并已在多个行业场景中落地。”王晓刚觉得，从场景的多样性，任务的复杂度以及数据的丰富度等多个维度看，都反映出商汤大模型的能力。

这种“既要有，还得全，最后还能对外供给”的能力，在深耕人工智能产业的量子位联合创始人李根看来，“这种能力不是谁都有的。”

需要提及的是，商汤早自2018年左右就洞察了大模型趋势，也是中国较早押注进行相关规划的公司。但“模型太大、参数太多、训练成本太高。”李根告诉记者，商汤被迫走上了一条自建算力中心、自己造芯片的道路，由此摸索出的是一种提供模型与算力的商业模式，即“从提供掘金工具，到卖水卖服务。”

大模型的“超市”，当商汤将这个目标定位打出来，陈根只觉得，不过是当下时间点将大模型体系推到了台前，“积累的工作，商汤早在之前就完成了。”

入局底气何在？

徐立指出，“在AI大模型时代，数据、算法和算力这三要素也在经历新的演变。”

首先，大模型参数量将以指数级的速率提升，而数据量随着多模态的引入也将大规模增长，这也必然会导致对算力需求的剧增。

正因当前业界训练大模型对大算力的需求旺盛，但真正好用的基础设施又是稀缺的。商汤则历时五年，不仅建设了AI大装置SenseCore，还基于大装置的能力，构建起了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。

一组数据显示，商汤的AI大装置上共有27000块的GPU芯片卡，可以输出5.0 exaFLOPS的总算力，是亚洲目前最大的智能计算平台之一。基于此，商汤实现“大模型+大算力”的融合创新研发体系。

记者采访了《ChatGPT:读懂人工智能新纪元》一书作者、前沿科技领域作家陈根，他总结认为，商汤目前阶段有两大优势，一是它没有被制裁前，在算力层面比较领先，但“这种领先只能是相较同样被制裁环境下的大厂有领先性，不代表明天和后天仍占优势。”

另外，商汤从人工智能技术研发与理论研究层面来讲，“它拥有华人领域比较优秀且庞大的人工智能专家团队。”

在陈根看来，入局大模型，比拼的不仅仅是模型能力，还有模型的调参优化、数据训练、算力支持等多维度能力的考验。他以谷歌为例，同样拥有算力、数据、模型三方面优势，“但在模型调参优化上没能突破，最终挑战OpenAI也失败了。”

陈根指出，大模型的技术体系不难，甚至是公开的，有人工智能技术团队的企业都可以快速搭出来，但能不能用却是另一回事。从目前来看，他觉得模型愿景是否明朗以及技术实现与否的评价标准，“就是敢不敢公测。”

尽管商汤在官宣现场进行了实测，但被记者问及测试账号信息时，相关人士回应称，“目前这是主要面向B端的技术”，其表示，商汤日日新大模型体系开放面向政企客户的API接口，客户可以登录商汤官网申请，后续或有序开放To C的测试账号。

商汤方面表达着对大模型研发的一种期待，“在数据量上、参数结构上、以及能处理的问题上，可以日复一日的提高。”

陈根觉得，从现实来看，商汤依然面临训练数据、参数优化、硬件算力等方面的硬伤，这并非孤例，他告诉记者，当下各大厂开发的大模型，都仍处于研发、训练阶段，“不日日新、不日日抓紧优化、调参、训练，就没办法实现公测，也没办法投入使用。”

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复