文章主题:商汤, 日日新, 大模型, 交流会
加入知识星球获得更多纪要和投资信息,联系管理员(微信号jiucai618)可获得免费体验卷,知识星球招募成员,请在文章末尾扫码领取优惠,目前原价折上折,已招募满400位,开始涨价,直至恢复原价~
声明:本材料仅为网络资料整理、不构成任何投资建议!记录、整理或者翻译可能产生误差,仅供参考,如有异议或侵权,请联系删除。
防止失联,所以最好请加入知识星球或者添加管理员微信!!!
商汤日日新大模型交流会20230410
CEO徐立人工智能模型的能力应该考量参数+训练的数据量,二者乘积为计算量。大模型以及数据未来对计算量的要求是爆发式的,今天计算量我们强调GPU 的计算量以及并行效率,我们的大装置上面的软件系统给大家带来高并发效率的基础设施。参数量:过往 10 年人工智能最好的算法,以每两年一个数量级的要求往上翻,过去两三年参数量每年翻 10 倍再提升。人类的神经网络的连接个数在150 万亿,人工神经网络计算机系统相比还差三个数量级。随着技术的迭代,参数量会往上走。数据量:GPT3 公开数据5000 亿token ,人的一生当中如果一直在听单词的话,可以听10 亿到 20 亿个词汇,所以人工神经网络能够处理知识量,已经远远大于一个人一生当中能听到的单词数。最大的神经网络也训练了2万亿token,人类的高质量语言词汇总数大约在9万亿左右,很快会面临着高质量语料被消化完。人类的 80% 的信息是通过眼睛来获得的。我们虽然有 150 万亿的参数,但是参数里大部分是处理视觉的,少量是处理语言的,而且肯定是先进化视觉再定义,语言是我们祖先发明的对这个世界高浓度的压缩的表达。所以我们通过语言能够很快地了解这个世界,但是一定会有更多的信息从视觉当中获得。通用大模型:当前业界有大量对于基础算力和基础设施的需求,商汤临港目前有 27000 块 GPU 在跑,输出 5000 P的总算力, 500P 的国产化的算力,支持 20 个千亿规模参数量的模型,以千卡并行的规模来往前走。同时我们把我们的大模型能力做成服务能力,来服务客户,包括自动化标注,我们自动化标注的能力是提升手动标注的 400 倍到 500 倍,看应用不等。大模型有个很重要的成本是部署成本,我们推理的效率已经提升 100% 以上。大模型的并行训练,如果连接 4000 块卡训练稠密模型,最佳的配置是在 5000 亿的参数稠密模型,因为我们有大装置,我们有敢做的能力。我们今年的目标是训练支撑万亿参数的训练,但是参数有可能是稠密,有可能是稀疏的等等。但是至少我们能够支持稠密 5000 亿参数的训练,可以有增量训练,我们把模型放到平台上,能够做大量的增量训练,并且把增量训练的成本降低90%,也就是原来的 1/ 10。同时我们会开放我们的模型超市、模型工具,以及开发者工具,使得大大提升我们开发者的效率。我们在这个行业里面深耕了很多年,我们的大模型是从 19 年开始做的。我们现在发布的大模型体系叫做日日新。上面融合了我们自然语言的大模型、文生图的大模型,感知类的大模型的增量服务模型开展A。1、自然语言大模型我们自研的自然语言大模型叫 sense chat(商量),1800亿参数,我们认为自然语言大模型的能力就在于你跟它的互动之间挖掘出他解决问题的方案,不是一个单纯的问答,他是通过多人互动,所以我们的 slogan 叫商量,商量都能解决,他不能一次,得慢慢的跟他商量。同时我们还带有知识更新的模块,能使得它能够信息更加准确。案例:帮商汤语言大模型写一段广告商量:当语言成为你的优势,世界将为你敞开大门案例:写一份邀请函 (1)万卷文献助手如果需要解决一些财务的专业知识,法务的专业知识,金融行业文本的专业知识,我们需要引擎有对长文本的理解,并且把它扮演成这个方向上的专家阅读专业的文本,我们有商量连接的万卷文献助手(2)接入其他应用,如编程代码(vs code)案例:计算两个数的最大公约数/求两个数是否互质/调用接口,解决一个手写OCR商量接入了自然语言编程之后,会改变原来的二八定律。从 20% 的代码,抽象的公共库, 80% 的人来完成,但到未来80%是机器生成, 20%通过提示词。经过微调之后,帮助程序员共享经验,很多情况下你用这套模式,就调动 AI 程序的经验,对于公司来说是非常重要的。如果用公司所有的库跑一遍这个模型的话,公司新来的员工立马享受到原来的员工的知识,并且能够加大开发大能力。我们在测试范围之内,我们发现员工在用了这套平台之后,上载的代码量效率提升了 60% ,测试集上准确率一遍过,准确率 40. 2%,是目前大家可用到的里的最高,比copilot高。功能:代码补全、扩写、翻译、重构、修正、注释等等。复杂度分析很重要,因为代码复杂度是制约代码跑起来很核心的原因。我们写测试用例, test 写得不完整的,写的一些边缘的 corner case 都没写到,但是这个测试用例可以生成得很完整。支持多语言的中英文编程。(3)医疗健康咨询,互动问诊,辅助诊疗。已在清华医院落地便民服务,也会再进一步推动在瑞金医院和华西医院等等上线。2、赋能生成式平台(1)秒画:超10亿参数自研文生图模型,支持二次元、三次元等多种生成风格。l推理速度快(单卡A100支持、2秒可生成1张512K分辨率图片)l可自训练(5分钟内定制属于自己的LORA模型@20张训练图片。且全部不要编程能力,只要拖拽就好了)l生成模型开源社区(汇聚1万+开源模型,为创作者提供更加完善内容生产创作工具)l提供B端API服务(基于平台发布的模型可设置为toB服务API,结合商汤大算力对外提供服务)。(2)如影:AI数字人视频生成平台,仅需5分钟录制的视频就可以生成数字人视频,AI文案一键生成,支持多种语言。我们今年也跟故宫联合开发了一款数字文创的产品。 案例:生成丝绸之路介绍视频,用中文、英语和阿拉伯语(3)琼宇:3D生成,城市级生成,生成100平方公里只需要2天(对比人工建模需要10000人),并实现高逼真、高还原场景。多源数据融合、进一步提高画面清晰度和细节,场景可实时交互。应用场景涵盖城市及园区数字孪生,建筑设计、影视创作、文旅和电商等。(4)格物:生成3d物品,应用方向包括商业广告云景视频。传统 3D 的建模有几个难点,1)复杂物体的建模往往会牵连到背景。2)光泽往往建不出来,材质不能分辨清楚。我们的这种系统的综合的扫描效率提升了400%,把原来的成本降到了 5% 左右,并且能够覆盖所有的品类。有了这些之后,我们可以有一些新的行业应用,比如空间的创意,把东西扫完了扫描之后直接放到空间当中,可以做家装,影视作品的嵌入,综艺视频中的物件摆放。我们还可以在模型上叠加更多的风格关系案例:蓝色空间号,三体里面的一座舰船,用 AI 自己学了一个运镜,整个视频商业广告的视频完全是 AI 自动化的,不需要插手。用格物扫描完之后,自动生成一个商业广告的运行视频,直接可以发布,这对于很多做电商的人来说有很大的场景空间。结合我们的人物场,我们可以做到更加完整的编辑。比如一个场景中可以嵌入数字人介绍,嵌入得物添加的物件,切入运镜手法,使得编辑进入了一种新的大模型的时代,结构和真实光照效果,并可以做到实时高空真渲染。如果把一个高清的场景全部复原了之后,可以在上面重新拍摄影视作品,重新拍摄一些互动的内容,都可以在这做。原来的一些影视作品里面3d资产都可以用神经渲染的方法来做,比如说样板房,电商平台,甚至是可以在一些地方直接点到这个物件做交互,室外场景的水里的倒影可以看到真实的情况,还原真实,万物重生。这当中有一个很重要的难点是在于怎么样做到实时性的交互。训练大模型的速度非常的慢,如果不能实时是没有办法这样完成。我们做到了 3D 可实时交付切换场景看一看。比如对于游戏的制作者来说,可以随意地切换自然的风光的场景,添加一些内容,就可以变成一个新的游戏场景。在通用类别的检测里面,我们有超过 900 多个类别,在单一的模型我们就可以实现这个检测输出。大家可以申请API 的密钥体验我们自动数据标注的服务。它涵盖了超过1000 个不同的目标的类别, 2D 和3D,有超过了 10 个行业里面的专业大模型,我们还在源源不断地去在这个里面加入我们新的模型,还有新的标注的类别,它也可以去针对人我们人工智能秒画生成的图像进行更详尽的数据的标注。有一个闭环,源源不断地去产生新的数据。我们在大装置上,除了服务日日新自研大模型体系之外,我们还有 7000 张的GPU对外服务超过 8 家的大型客户,用来训练他们超过千亿的规模的大参数模型。在 1956 年,人工智能这个词和另外一个叫做粒子对撞机同年被发明,粒子对撞机今天成为物理学发明里最重要的基础设施大装置,今天我们把我们的 AI 算力中心起名做大装置,也希望它能够成为人工智能大模型时代的最重要的基础设施,赋能我们的行业,推动 AGI发生和到来。CTO从 2012 年开始,按照过去十年人工智能的革命,它是以深度学习,不断地去突破工业应用的红线为起点,由此就诞生了一批 AI +场景的应用,每个场景都有自己专属的模型,但是它研发周期比较长,成本也比较高。伴随着 ChatGPT 的出现,通用人工智能又掀起了一波新的人工智能的技术的革命,它以更加高效的方式去解决了海量开放任务,也带来新的研究的范式。它是基于一个超大多模态的模型,是通过人类的反馈,强化学习不断解锁我们模型的新的能力。什么是通用人工智能?在现有的 AI 系统当中,我们可以输入多模态的数据,输出也可以是多个任务,但是这里面的每一个任务都是事先预定好的,当我们遇到一个新的任务的时候,我们就要对 AI 的系统进行重新的设计,采集新的样本,对模型重进行重新的训练。在 AGI 的系统下,我们的输入是提示词,它的输出产生多模态的数据,加上用自然语言描述的各种的任务,因为我们并不需要对AGI 模型做出改动,我们只需要去选择合适的提示词,就能够去覆盖非常广泛的开放式的任务。这里面就包括了大量长尾的问题,甚至一些主观描述的任务,这对于人工智能大范围推广有着非常重要的意义。我们以自动驾驶的场景为例,比如说给定一幅图,我们想问自动驾驶的车辆是否应该去减速?在现有 AI 的系统当中,首先我们要进行物体的检测,得到物体的检测框,然后进行文字的识别,做出决策和判断。在这个系统当中, pipeline 当中的每一个模块都是事先预定好的任务。但是在通用的人工智能的系统当中,给第一幅图像,我们就可以问这个系统任何问题,比如说这个主要是什么意思?我们应该怎么做?agi模型就可以给出我们的答案,而且会给出我他推理的过程。比如说他看到这个目标是有 30 公里每小时的限速,在前方 100 米,前面有学校,有小孩活动,所以我们需要小心,需要把我们的去车速去降到 30 公里每小时以下。我们说在 AGI 的系统当中,我们去实现的是模型和人之间的这个互动,它产生的是有智慧的内容,我们叫做这个人机共治。在现有的 AI 系统当中,我们已经实现了数据的飞轮,我们从前端终端获取大量的数据,进行标注,去更新我们的模型,这个模型又回馈到前端,能够去获取更高质量的数据。在 AGI 的这个系统当中,人和模型之间是怎么互动的?实际上是模型的输出是更好地去对齐人的意图,我们说叫 align with human intention,人就给到这个模型一些更好的指导,包括一些方法论的输出,帮他解锁更多的技能。反过来我们说这个模型它就会能够去输出更加高质量的内容。这个过程叫做智慧的飞轮,人机共治出现对于人类社会的科学技术和文化的进步大大加速了过程。什么是一个好的优秀的大模型,它就好比一个非常有天赋的运动员,作为教练员,人类并不需要一招一式地去演示给他看,我们只需要给他输出一些方法论,给他恰当地引导,在关键的地方给出一些指引,他就能够去完成这个新的动作,甚至是创造一些新的动作,叫做见招拆招,无招胜有招。所以在实践当中,他才能够不断地解决新的问题和挑战。如果是资质差一点的大模型,通过自己的努力,他也能够达到一定的水平,这就需要教练员一招一式地去演示给他看,甚至需要有天赋的模型去展示。这意味着我们去需要收集更多的训练的数据,他也能达到一定的水平,但是可能没有办法给我们带来更多的惊喜,但是如果我们要是用固定的标准去评测这两个模型的时候,就有可能看不到这样的差异,我们怎么去研发一个优秀的这个大模型?那么这就需要有我们有非常丰富的场景,非常开放式的任务去检测一个大模型是否非常优秀,同时我们也需要非常丰富的数据和任务输入给大模型,完成它的这个训练的过程。商汤我们作为一个人工智能的平台公司,我们有非常多丰富的工业应用的场景,恰恰体现了我们的强项。我们在过去的 5 年里,一直在深耕我们大模型这个方向,除了我们有非常强大的人工智能的基础的设施,商汤也实现了全栈大模型的研发的能力,首先我们针对大模型底层的序列做了非常多的优化,这个模型非常大一张 GPU 卡是放不下的,那么这里面就需要我们去做各种分布式的训练的优化,包括数据并行和模型并行的优化、显存的优化、混合经过的优化等等。在此基础我们又针对超大模型,还有一系列优化技术,这里涵盖了模型的设计、模型的训练、模型的优化,还有模型的服务等等。要想得到一个非常高质量的优秀的大模型,也离不开涵盖丰富的场景,高质量的数据,我们也跟我们的客户一起在过去的落地的过程当中定义了很多丰富多样的这样的任务。在最近我们也为我们的社区贡献了一个最大的基于真实感知重建和生成的多模态的数据集叫 omni objects 3d。在这个数据集里面我们包含了 190 个类别,超过 6000 个物体,有大量的真实物体的扫描的数据,这里面数据的质量也是非常高的,每个物体它有包含 5 条的环绕的视频,采用不同的轨迹和光照条件下拍摄的都是全视角高清的视频。它也支持了多个任务,包括神经渲染,表面的重建, 3D 的生成,点云的识别等等。前面很多工作都是离不开这样高质量的数据的支持。在这个数据里面我们有渲染多视角的图片,实拍的视频, 3D 的点云网格,还有纹理,这是多模态的数据工作。今年也被 CVPR 评选为是 best paper的candidates,从将近1万篇投稿当中脱颖而出。在过去的 5 年里面,我们一直在沿着这个方向去演进。在 2019 年的时候,我们有了第一个 10 亿参数级的大模型,用于人脸的领域。 2022 年我们有了 320 亿参数的视觉模型,这也是迄今为止最大的一个视觉模型。今天我们发布会上所展示的自然语言大模型的能力也是基于一个千亿参数的模型。前不久那我们也向我们的社区开源了书生 2. 5,一个 30 亿参数的多模态的模型。去年年底的时候,我们已经有 10 亿参数的 AIGC 的模型,能够支持原生图和图层图。所有的这些方面积累不同的模态,汇聚促使我们正在也在训练一个更加强大的多模态的大模型。除此之外,我们的决策智能模型,在星际争霸的比赛中超越了 DeepMind 的 Alpha star,也战胜了大中华区的冠军,也在自动驾驶能源还有金融领域落地。所以未来也是会跟我们进一步融入到通用多模态的大模型当中。所以未来我们通用的人工智能的大模型体系里面,包括了我们的视觉感知、语言理解,语言生成和决策推理。我们的大模型已经覆盖了公司的核心的业务,在智慧城市、智慧商业、智慧汽车、智慧生活,我们的四大板块里面有超过 20 个场景所实现了扎扎实实的落地,场景丰富性,数据还有任务多样。也充分地去展示了我们大模型体系强大的能力和未来的潜力。以自动驾驶为例, 2021 年的时候,在我们感知大模型的这个指导下,我们开发了 Bev 的感知的算法, 也是在 VIMO 的挑战赛当中以绝对优势夺得冠军。今年我们有一个最新的工作,uniAD,也是在一个模型里面实现了感知和决策的一体化,端到端的优化,他也获得了 CVPR best paper award candidates。未来我们也希望能够能通过我们多模态的大模型继续推动自动驾驶。 2021 年我们的 Bev 的算法,它是基于环视的摄像头作为输入,利用我们的 deformal transformer 将这些多个摄像头的感知的数据直接映射到 boot iview,得到最终结果。行业里面也有非常好的影响力,也在实现量产的落地过程当中。后来做了一个升级,模型架构升级为书生 2. 5,也实现了更好的对齐,在 new things 上也得到了榜单的第一,所以 VIMO 还有 new things 是自动驾驶里面最重要的知名的两个榜单。在我们的 uniAD 的工作当中,我们是首个实现了感知决策一体化,端到端的自动驾驶的解决的方案。在一个环视图片,经过我们的 transformer 去映射到 BV 的特征,同时我们进行目标的追踪,在线的建图去预测我们目标的轨迹,还有对障碍物进行预测,所以是最终的或者实现驾驶的行为,因为我们可以进行端到端的优化,在各项的关键的指标上我们都可以去明显地去超越SOTA。比如我们在多目标追踪的准确率上比sota又提升了20%,我们在车道线的预测的准确率提升30%,运动的预测的位移的误差降低38%,规划误差降低28%。未来我们还有非常大的潜力,利用我们多模态的大模型去继续推动我们自动驾驶的技术。比如说我们可以用 AIGC 去生成大量图片,用环视的感知的数据,还有多模态的数据作为我们大模型的输入,实现感知决策一体化的集成。它的输出里面我们通过环境的解码器重构我们的 3D 的环境,通过我们的行动行为解码器去预测我们的规划路径的,规划动机的解码器去解释我们自动驾驶的动机。在大模型的推动下,我们希望将来的自动驾驶的系统更加的安全可靠,能够有可解释性,也更加接近人的驾驶行为,也是在我们大模型的加持下,我们就实现感知和决策数据的闭环,因为我们从车端可以获源源不断地获取大量的这些数据,但是这些数据没法如果用手工的标注效率是非常低的。有了我们大模型的存在的话,它可以去自动进行数据的标注再反馈,能够去更新我们车的终端的模型,让它能够去变得更为强大。在人工智能新范式的加持下的也是大大提升我们的数据的标注的服务。我们在人工智能 1. 0 的时代,我们依赖于人工的标注时间长成很高,现在我们可以基于我们的大模型实现自动的标注,可以成百几百倍地去降低我们的成本,去快速迭代优化。以书生2. 5 为例,在 EV 之带的分类任务上,在所有的开源的模型当中是唯一一个它的 top one 的准确率能够超过 90% 的。在业界知名的 Coco 数据集检测的任务上,我们也是唯一一个能够突破 65 的成绩。书生2.5这个单一模型,在 20 多个不同的场景,不同的任务和单模态和跨模态的公开数据集当中都取得了最好的成绩。我们基于我们的感知模型,我们有商汤提供自动数据标注的服务。我们有 12 个这个模型,里面包括通用模型,还有一些专业领域的专业模型,在这里面我们可以选择模型,比如结构化检测,在这里面我们上传图像,它就可以基于我们大模型自动的进行数据的标注。在这里面它可以进行目标的检测,还有一些属性的识别。下载知识星球找韭菜拌面投资圈,每天分享第一手的调研纪要和卖方研报。您现在加入,置顶1中的大师投资理念集合(张坤、张磊、冯柳、段永平、陈光明、巴菲特等等)即可免费下载。苹果用户请到韭菜拌面投资圈的公众号里找二维码加入,三天内不满意可以在星球app右上角,自己全额退款,欢迎体验。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!