ChatGLM2-6B:多轮对话与高效推理的完美融合

文章主题：6B, 多轮次对话, Multi-Query Attention技术, 显存资源

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

ChatGLM2-6B的升级部分

第一代的ChatGLM2-6B是一个非常优秀的聊天大语言模型。它的部署成本很低，完全版本仅需13GB显存即可进行推理，微调需要14GB显存，在消费级显卡即可使用。而其INT4量化版本则最低仅需6GB即可推理。

量化等级最低GPU显存FP16（无量化）13GBINT810GBINT46GB

相比较第一代，第二大的ChatGLM2-6B模型主要有四点升级：

ChatGLM2-6B升级1：基座模型升级，性能更加强大

第二代的ChatGLM2-6B的基座模型使用了GLM模型的混合目标函数，在1.4万亿中英文tokens数据集上训练，并做了模型对齐。而测试显示，第二代的ChatGLM2-6B比第一代模型有了很大提升，在各项任务中的提升幅度如下：

可以看到，第二代模型的性能提升很高。由于第一代的ChatGLM-6B效果已经十分让人惊叹，因此第二代更加值得期待。可以看到，在数学任务上，ChatGLM2-6B性能提升571%！

ChatGLM2-6B升级2：更长的上下文

第一代ChatGLM-6B上，模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术，升级到32K。而据此微调的对话模型ChatGLM2-

在8K长度的上下文条件下，6B能够实现自由流畅的对话，而且可以支持更多的轮次。官方已经明确表示将继续优化上下文长度限制，以进一步提升会话的体验。

ChatGLM2-6B升级3：更高效的推理，更快更便宜！

ChatGLM2-6B采用了Multi-Query Attention技术，这使得它在较低的显存资源下仍能以更快的速度进行推理。据官方介绍，相较于第一代产品，推理速度提升了42%。此外，在INT4量化模型中，6G显存的对话长度也得到了显著提升，从1K增长至8K。

这意味着，我们可以用更低的资源来支持更长的对话。甚至是读取更长的文档进行相关的提取和问答。 ChatGLM2-6B升级4：更加开放的协议

在第一代ChatGLM-6B模型中，有一个比较遗憾的是它的模型开源协议限制较大，完全禁止商用。而第二代的ChatGLM2-6B则宣布对学术研究完全开放，而且允许申请商用授权，不过需要书面申请，并且没有说明是否收费。

按照这个描述，可能是免费，或者费用不高。

ChatGLM2-6B的资源要求

根据官方的说明，ChatGLM2-6B的资源占用更低，速度更快。官方公布的主要指标如下。

首先是推理速度，2000个字符的平均速度提升约41.7%

Model推理速度 (字符/秒)ChatGLM-6B31.49ChatGLM2-6B44.62

其次是资源占用降低，在不同的量化水平下，相同显存支持的对话长度提升约8倍！

在执行 INT4 量化推理任务时，初代 ChatGLM-6B 显卡最大仅能支持生成 1119 个字符，便会遭遇显存不足的提示，而 ChatGLM2-6B 则能在至少生成 8192 个字符的情况下保持高效运行。

下图展示了不同量化等级下，不同长度的上下文最低显存要求：

量化等级编码 2048 长度的最小显存生成 8192 长度的最小显存FP16 / BF1613.1 GB12.8 GBINT88.2 GB8.1 GBINT45.5 GB5.1 GB

可以看到，如果你有13GB的显存，在FP16精度下，可以支持最高8192长度的生成结果。这意味着可以生成更长的文档。而使用INT4量化模型，你只需要5.1GB显存就能生成8K长度内容了。

而且，官方测试量化版本对精度的损失并不大，基本都在6%以内，但是这资源占用下降不止一半哦

ChatGLM2-6B的使用方法

依然是十分简单，首先从官方下载库之后安装依赖：

git clone https://github.com/THUDM/ChatGLM2-6Bcd ChatGLM2–6Bpip install –r requirements.txt

上述命令需要你本地已经安装好git，这里不细说，可以参考之前第一代的详细教程：https://www.datalearner.com/blog/1051680925189690

为了方便大家使用，我们推荐在Hugging Face平台上预先下载模型，并在本地进行加载。您可以通过以下链接获取下载地址：https://huggingface.co/THUDM/chatglm2-6b。

ChatGLM2-6B模型已经上架DataLearner模型卡列表：https://www.datalearner.com/ai-models/pretrained-models/ChatGLM2-6B

ChatGLM-6B第一代模型信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/ChatGLM-6B

大家可以在模型信息卡中看到更加规整的ChatGLM2-6B的内容。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！