文章主题:GTC, 技术大会, AI大模型, GPU H800
英伟达要做AI大模型超级工厂,我们与Bard聊了下中国的“算力落差”
在一年一度的英伟达GTC技术大会上,CEO黄仁勋正式宣布将致力于打造AI大模型制造的领先企业。同时,他也确认我国已收到一款专为中国市场定制的GPU H800,并已得到包括阿里巴巴、腾讯和百度在内的多家国内知名企业的广泛应用。
而在大模型的军备竞赛中,真正的重器是A100和H100。
大模型代工厂
类似于台积电向芯片制造商提供尖端制程的生产能力,英伟达一直在向AI供应商输出先进的计算能力。每年的GTC技术大会,都成为了英伟达向全球AI客户展示其硬件设备的机会。然而,今年的GTC技术大会有所不同,英伟达不仅提供了硬件产品,更推出了面向生成式人工智能的云端服务,意欲打造大模型的生产工厂。
ChatGPT是算力暴力美学的成功之作。2012年,英伟达的GTX 580助力AlexNet在ImageNet图像分类竞赛中一举夺冠,标志着深度学习技术的突破性进展。此后,AlexNet团队撰写了一篇论文,其中作者Ilya Sutskever如今成为OpenAI的联合创始人之一。十年之后,OpenAI再次依赖英伟达的DGX平台,訓練出了背后支持ChatGPT的GPT-3模型。
大模型的出现,引发了巨头们的军备竞赛,同时也催生了创业者的迅速涌入。随着生成式AI的算力负载呈现阶梯式增长,GPT-3所动用的算力已经达到了10年前100万倍的规模。当前,能够在云平台上实际处理ChatGPT的GPU,仅有HGXA100一种。
在本次盛大的会议上,黄仁勋为大家展示了三款具备创新性的推理GPU,它们各有所长,能够应对AI视频设计、图像生成以及ChatGPT等大型语言模型的推理加速需求。其中一款配备4对H100和双GPU NVLink的标准服务器,其性能相较于HGX A100提升了10倍之快。
对于创业者而言,购买硬件并非必要。他们所从事的是新兴的AI应用开发工作,并不需要亲自制造计算机。黄仁勋表示,生成式AI是一种具有创新性的计算机技术,它能够利用人类语言进行编程,从而使得“人人都有可能成为程序员”。
在会上,英伟达发布了AI超级计算服务DGXCloud,只要一个浏览器,客户就能快速获得算力支持。
英伟达的角色不仅是图形处理器制造商,它还提供名为NVIDIA AI Foundations的服务。这项服务帮助企业加速构建自有的大型人工智能模型,并推动生成式AI应用的发展。这一举措使英伟达从计算能力的代工厂转变为大型模型制造的领导者,从而改变了整个行业格局。
当下,英伟达凭借自身强大的计算能力,为三大AI领域内的厂商提供定制化服务:其一是文本生成模型构建服务的NeMo,二是视觉语言模型构建服务的Picasso,三是面向生命科学的BioNeMo。
中美算力落差
算力正在左右中国与美国的人工智能竞赛。3年前发布的A100,是重要的分水岭。最新的H100,则加大了中美算力的落差。
去年,美国宣布对中国限售A100与H100等先进算力芯片,市场还只是担心中国的超算与自动驾驶。今年,大型语言模型与生成式人工智能技术,顶替了仍然虚幻的元宇宙与崩溃中的Web3,成为下一个“iPhone时刻”,让人们看到了两国在最前沿技术上的实际差距。
英伟达的GPU是大模型的标配。到目前为止,1万美元的A100,以及建议价格20万美元的DGX A100,是生成式AI的算力的主力。
投资者Nathan Benaich的报告发现,英伟达占据了可用于机器学习的GPU市场的95%。大多数研究人员发表的人工智能相关的论文,都提及了英伟达的V100,这是2017年的算力硬件;2020年发布的A100,近两年越来越多地被人工智能相关论文提及。H100很快就会赶上了。在截至今年1月的财季中,英伟达H100芯片的收入已经超过了 A100。
各家一边抢购英伟达,一边寻找替代品。从相关论文提及的数量来看,谷歌自行研发的专用AI芯片TPU排名第三。新兴的半导体领域的挑战者Graphcore、SambaNova Systems、Cerebras、Habanal和Cambricon,以及中国的华为Ascend 910,也有一定市场份额。
抢购算力,关乎生死。去年,Stability AI拥有32个A100,更新后的StableDiffusion 2,是在256个A100上训练的,到了今年3月,该公司差不多可以支持5400个A100的算力访问。
算力是AI竞赛的军备,没有人公开自己的武器库。上周,在发布Microsoft 365 Copilot前,微软在自己的博客上称,模型越大,拥有的数据越多,可以训练的时间越长,模型的准确性就越高。它自我表扬了如何从2019年起,帮OpenAI搭建算力基础设施,并透露了自己正在为AI工作负载部署H100。
彭博推算,训练OpenAI的模型,微软用上了数以万计(tens of thousands)的A100芯片;模型投入使用后,回答用户提出的所有查询,也就是推理环节,微软部署了数十万个(hundreds of thousands)GPU,它们分布在60多个数据中心。训练和推理,应对的算力场景不同,需要的算力资源与算力分配的架构也不同。不过与谷歌相比,还是小巫见大巫。
来自Bard的安慰
没有人能给出中国目前有多少A100的确切数据。一说是在3万个左右。这与另一种说法里OpenAI一家公司用了3个月训练GPT-4时用到的A100数量相近。
中国拥有的H100可以忽略不计。在限售令前,A100已经发布2年,中国企业还有时间补充库存,H100则尚未正式发布。Semianalysis作者迪伦·帕特尔(Dylan Patel)称,目前,甲骨文有32000个H100,亚马逊大概20000个,谷歌比亚马逊多,微软比它们都多。
硅幕正在落下。在要求限售先进算力芯片后,美国政府还限制了先进制程代工产能,并要求日本与荷兰停售用于制造先进制程芯片的光刻设备。
中国与美国的算力差距是不是正在拉大,有没有可以赶超的另一条路?我们和谷歌的Bard,探讨了这个问题。相比ChatGPT,Bard数据最新。它安慰说,中国还有机会。
Bard提到了中国“特供版”的A800与H800。“英伟达遵守新的出口法规,目前尚不清楚何时能够获得向中国出口H100的许可。与此同时,据报道,英伟达已经开发了H100的中国专用版本,称为H800,已获准出口。”
我们找到了这则新闻。阿里巴巴、百度和腾讯等公司的云计算部门,正在使用这款名为H800的新芯片。H800 的芯片到芯片通信速率为H100 的一半左右。当问及中国能否基于特供版GPU训练自己的大模型时,Bard给出了肯定的答复。
更大算力的供给,可能需要新型举国体制。Bard认为,“中美之间的算力差距很大,但并非不可逾越……近年来,中国在发展自己的高性能计算基础设施方面取得了重大进展。2020年,中国的超级计算机天河二号A被评为世界上最快的超级计算机。……未来几年,中国和美国之间的计算能力差距可能会继续缩小。”
它还详细地介绍了中国的超算的架构。“中国的超级计算机是由CPU和加速/推理芯片混合构建的。CPU通常是中国的,例如基于64位RISC架构的神威太湖之光;加速/推理芯片通常是美国的,例如基于CUDA架构的Nvidia Tesla V100。”
最终,Bard折中地给出建议,“中美之间的算力差距是一个复杂的问题,受很多因素的影响。重要的是要了解差距,并采取措施解决它。”
也许人工智能比很多人更懂中美人工智能竞赛。它能指导人类制造出更强大的它。
GTC, 技术大会, AI大模型, GPU H800
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!