天工
导语:天工作为国产大语言模型,在中文语境和特定场景下,其表现优于ChatGPT3.5。然而,在逻辑推理、代码分析和长对话能力方面,与ChatGPT3.5和Chat GPT4相比仍有明显差距。 01 天工模型背景 昆仑万维天工大模型自 4 月 17 日宣布启动邀测,官方宣布:天工是由昆仑万维(SZ:300418)和奇点智源合作自研、中国第一个真正实现智能涌现的国产大语言模型。 “大”模型有一个重要的特性“涌现”。所谓涌现现象就是在越过了某个参数量和头尾数据量后,其能力曲线就会陡然提升,包括但不限于知识库的扩大和推理能力的提升。 昆仑万维表示天工用到了两个千亿模型 —— 千亿预训练基座模型和千亿 RLHF(Reinforcement Learning from Human Feedback)模型。 而其中的 RLHF 就是“涌现”能力的最重要由来。千亿级别的 RLHF 或许是未来模型进步的最重要模块。 LLM(大语言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。 RLHF 需要收集大量高质量的人类偏好数据,包括人工生成的文本和对模型输出的排名标签。除此之外,RLHF 还需要处理标注者的偏见和不一致以及模型输出的有害或不真实的风险。 总体来说,相较于传统算法,RLHF 需要更多的人工标注和数据清洗以向模型提供充足的带标注的文本数据(又或者是图片数据以训练多模态模型)。 本次天工还有一个重要宣传点为:超过20轮的对话能力和1万字以上的长篇文本记忆能力。这也是当前大部分国产模型最为欠缺的。 之前测试文心一言和 ChatGLM 的时候也表现出了明显的记忆丢失现象。而长记忆能力也是大语言模型的“涌现”现象的一个表征。本文也将着重于测试这项能力。 02 模型能力测试 本次测试我们主要将天工与 ChatGPT3.5做对比。在部分较难问题(ChatGPT3.5 和天工均无法完成),会引入当前公认最强大语言模型 ChatGPT4 作为参考模型。...