《ChatGLM2-6B：颠覆传统的推理加速新技术》

文章主题：ChatGLM2-6B, Multi-Query Attention技术, 低显存资源, 快速度

666AI工具大全，助力做AI时代先行者！

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

在七月初，ChatGLM-6B免费商用之后，就在几分钟之前，ChatGLM2-6B宣布免费商用了！

相比较第一代ChatGLM模型，第二代的ChatGLM2-6B的主要升级包括：

ChatGLM2-6B升级1：基座模型升级，性能更加强大

第二代的ChatGLM2-6B的基座模型使用了GLM模型的混合目标函数，在1.4万亿中英文tokens数据集上训练，并做了模型对齐。而测试显示，第二代的ChatGLM2-6B比第一代模型有了很大提升，在各项任务中的提升幅度如下：

可以看到，第二代模型的性能提升很高。由于第一代的ChatGLM-6B效果已经十分让人惊叹，因此第二代更加值得期待。可以看到，在数学任务上，ChatGLM2-6B性能提升571%！

ChatGLM2-6B升级2：更长的上下文

在第一代ChatGLM-6B上，模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术，升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此，支持更多轮次的对话，并且官方表示将在后续继续优化上下文长度限制。

ChatGLM2-6B升级3：更高效的推理，更快更便宜！

ChatGLM2-6B采用了Multi-Query Attention技术，这一技术能够在降低显存资源消耗的同时，提高推理速度。据官方介绍，相较于第一代产品，ChatGLM2-6B的推理速度提升了42%。此外，在INT4量化模型中，6G显存的对话长度也得到了显著提升，从1K增长至8K。这不仅展示了ChatGLM2-6B在性能上的飞跃，更是对其高效能计算能力的肯定。

这意味着，我们可以用更低的资源来支持更长的对话。甚至是读取更长的文档进行相关的提取和问答。 ChatGLM2-6B升级4：更加开放的协议

ChatGLM2-6B开始发布的时候商用授权协议是30万一年，而7月14日晚上开始完全免费。

需要注意的是，商用授权需要登记，登记地址表单扫描二维码：

大家可以用起来了！

ChatGLM2-6B的模型信息卡同步更新： https://www.datalearner.com/ai-models/pretrained-models/ChatGLM2-6B关于ChatGLM2-6B的其它信息介绍：https://www.datalearner.com/blog/1051687694704581

号外！

我们建立了一个AI技术交流讨论群，请大家加入2/3群交流，大家可以在群里讨论AI相关的技术问题和进展~由于群满200无法自动加入，需要邀请，大家可以加我的微信，然后邀请进群~（微信号：datalearner_ai，微信群仅限AI相关技术交流）微信账号二维码如下

ChatGLM2-6B, Multi-Query Attention技术, 低显存资源, 快速度

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复