ChatGLM-6B
本文作者:赵桢、罗成、李亭骞、邹文艺 引言 自大语言模型 (LLM) 成为热点话题以来,涌现了一大批中文大语言模型并在优化平台中得到了积极部署。ChatGLM 正是广受好评的主流中文大语言模型之一。 然而,由于 ChatGLM 模型尚未成为 Transformer 生态的原生模型,因此,官方 optimum 扩展库对其仍缺乏支持。 本文提供了一种使用 OpenVINO™ opset 重构该模型架构的便捷方法。 该方案包含专为 ChatGLM 定制的优化节点,且这些节点都利用英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,缩写为英特尔® AMX)内联和 MHA(Multi-Head Attention,多头注意力)融合实现了高度优化。 请注意,本文仅介绍了通过为 ChatGLM 创建 OpenVINO™ stateful模型实现优化的解决方案。本方案受平台限制,必须使用内置了英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器[1](代号 Sapphire Rapids)。笔者不承诺对该解决方案进行任何维护。 ChatGLM 模型简介 笔者在查看 ChatGLM 原始模型的源码[2]时,发现 ChatGLM 与 Optimum...