文章主题:natural language processing, artificial intelligence, computer vision, language models
经济观察网 记者 钱玉娟 4月10日,商汤科技董事长兼CEO徐立对外宣布,公司在“大模型+大算力”的战略下,通过AI大装置SenseCore打造出了AGI(通用人工智能)实现的基础设施——一个大模型体系。该体系具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力,被命名为“日日新SenseNova(下文简称:日日新)”。
“苟日新、日日新、又日新。”这句话出自《论语》,意思是每一天都要保持学习的状态,不断地更新自己的知识和技能。徐立在分享模型命名的背后含义时,表达了他对于模型的期望。他希望模型能够在处理问题和迭代的速度上,像商汤一样“日日更新”,并不断探索和发掘人工智能(AGI)的更多可能性。
王晓刚,商汤科技联合创始人和首席科学家,认为商汤的AGI催生了“新的研究范式”。这一范式基于一个强大的多模态基模型,结合强化学习和人类反馈,不断挖掘并拓展基模型的潜在能力。通过这种方式,我们能更有效地应对各种开放式的任务,从而在各个领域取得更为显著的成果。
在”日日新”大模型体系支撑下,商汤科技成功研发出各类生成式AI模型及其应用。这些成果包括AI生成的图像、动画、数字人以及各种场景与物体的生成等。
大模型的“超市”
自 ChatGPT 发布以来,自然语言处理技术受到了广泛关注。作为人工智能助手的核心技能,自然语言在国内外科技互联网企业开发大型语言模型方面成为了关键策略方向。对于商汤科技而言,这一趋势也产生了深远的影响。
在”日日新”大模型体系的支持下,商汤科技成功研发了一款名为”商量SenseChat”的语言大模型。该模型经过大量的数据训练,包括千亿级别的参数,充分考虑了中文语境的特点。在实际现场演示中,它展现出了对中文文本的深入理解和高效处理能力,充分体现了我国人工智能领域的技术实力与创新精神。
据记者报道,商汤科技所研发的“商量SenseChat”具备多项功能。首先,它可以编写和调试代码,为用户提供便捷的编程服务;其次,该技术能够提供个性化的医疗建议,帮助用户更好地管理自己的健康状况;最后,从复杂文档中提取和概括信息也是它的拿手好戏,让用户快速获取所需的信息,省去繁琐的文字处理过程。综上所述,商汤的“商量SenseChat”可以视为编程、健康咨询以及PDF文件阅读等领域的“全能助手”。
不只是语言大模型,“日日新”还为政企客户提供了API接口,既包括图片生成,自然语言生成,视觉感知通用任务与自动化数据标注等服务,还可以提供大模型并行训练和模型增量训练服务,便于客户在大模型基础上进行自身垂直领域、行业的自定义模型开发等。
技术创新能力,往往是内生外化的。商汤基于“日日新”大模型体系中的基于视觉大模型,帮助自身提升了在智能驾驶领域中,对环境、行为及动机的解码能力;它还会面向行业开发者开放大量预训练模型及AI开发工具链,以此帮助客户提升开发效率等。
在徐立的规划里,商汤在推出“日日新”大模型体系后,便为上下游提供了一个大模型的“超市”,其中有数据、模型训练以及部署相关。
“商汤已建立了全栈的大模型研发体系,并已在多个行业场景中落地。”王晓刚觉得,从场景的多样性,任务的复杂度以及数据的丰富度等多个维度看,都反映出商汤大模型的能力。
这种“既要有,还得全,最后还能对外供给”的能力,在深耕人工智能产业的量子位联合创始人李根看来,“这种能力不是谁都有的。”
需要提及的是,商汤早自2018年左右就洞察了大模型趋势,也是中国较早押注进行相关规划的公司。但“模型太大、参数太多、训练成本太高。”李根告诉记者,商汤被迫走上了一条自建算力中心、自己造芯片的道路,由此摸索出的是一种提供模型与算力的商业模式,即“从提供掘金工具,到卖水卖服务。”
大模型的“超市”,当商汤将这个目标定位打出来,陈根只觉得,不过是当下时间点将大模型体系推到了台前,“积累的工作,商汤早在之前就完成了。”
入局底气何在?
徐立指出,“在AI大模型时代,数据、算法和算力这三要素也在经历新的演变。”
首先,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,这也必然会导致对算力需求的剧增。
正因当前业界训练大模型对大算力的需求旺盛,但真正好用的基础设施又是稀缺的。商汤则历时五年,不仅建设了AI大装置SenseCore,还基于大装置的能力,构建起了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。
一组数据显示,商汤的AI大装置上共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS的总算力,是亚洲目前最大的智能计算平台之一。基于此,商汤实现“大模型+大算力”的融合创新研发体系。
记者采访了《ChatGPT:读懂人工智能新纪元》一书作者、前沿科技领域作家陈根,他总结认为,商汤目前阶段有两大优势,一是它没有被制裁前,在算力层面比较领先,但“这种领先只能是相较同样被制裁环境下的大厂有领先性,不代表明天和后天仍占优势。”
另外,商汤从人工智能技术研发与理论研究层面来讲,“它拥有华人领域比较优秀且庞大的人工智能专家团队。”
在陈根看来,入局大模型,比拼的不仅仅是模型能力,还有模型的调参优化、数据训练、算力支持等多维度能力的考验。他以谷歌为例,同样拥有算力、数据、模型三方面优势,“但在模型调参优化上没能突破,最终挑战OpenAI也失败了。”
陈根指出,大模型的技术体系不难,甚至是公开的,有人工智能技术团队的企业都可以快速搭出来,但能不能用却是另一回事。从目前来看,他觉得模型愿景是否明朗以及技术实现与否的评价标准,“就是敢不敢公测。”
尽管商汤在官宣现场进行了实测,但被记者问及测试账号信息时,相关人士回应称,“目前这是主要面向B端的技术”,其表示,商汤日日新大模型体系开放面向政企客户的API接口,客户可以登录商汤官网申请,后续或有序开放To C的测试账号。
商汤方面表达着对大模型研发的一种期待,“在数据量上、参数结构上、以及能处理的问题上,可以日复一日的提高。”
陈根觉得,从现实来看,商汤依然面临训练数据、参数优化、硬件算力等方面的硬伤,这并非孤例,他告诉记者,当下各大厂开发的大模型,都仍处于研发、训练阶段,“不日日新、不日日抓紧优化、调参、训练,就没办法实现公测,也没办法投入使用。”
版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
钱玉娟经济观察报记者
TMT新闻部记者
长期关注并报道TMT领域的重大事件,时刻保持新闻敏感,发现前沿趋势。擅长企业模式、人物专访及行业深度报道。
重要新闻线索可联系qianyujuan@eeo.com.cn
微信号:EstherQ138279AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!