文章主题:阿里云, 开源模型, 大模型, Qwen-14B
(编辑/吕栋)
在9月25日,阿里云开源了通义千问140亿参数模型的Qwen-14B以及其对话模型Qwen-14B-Chat,并且这两个模型都可以免费商用。据相关介绍,Qwen-14B在多个权威评测中都表现出了超越同等规模模型的能力,其中一些指标甚至接近了Llama2-70B的水平。值得一提的是, just 一个多月之前,阿里云开源的70亿参数模型Qwen-7B etc已经获得了超过百万的下载量。
Qwen-14B是一款高性能的开源模型,具备强大的推理、认知、规划和记忆能力,这得益于其采用了大量高质量数据进行训练,总体训练数据超过了3万亿Token。相较于其他同类模型,Qwen-14B在最大支持8k的上下文窗口长度方面表现突出。此外,Qwen-14B-Chat是在基座模型的基础上,通过精细的SFT处理得到的对话模型。这一改进使得Qwen-14B-Chat在生成内容的准确度上有了显著的提升,进一步展示了其在多语言处理领域的实力。
Qwen-14B在十二个权威测评中全方位超越同规模SOTA大模型
阿里云官方表明,Qwen具备卓越的工具调用技能,能够协助开发者更迅速地搭建基于Qwen的Agent(智能体)。开发者可以利用简洁的指令教授Qwen运用繁复的工具,例如运用Code Interpreter工具展开Python编程以完成 intricate数学计算、数据分析以及图表绘制等任务;同时,也能开发出具备多文档问答、长文撰写等功能的“高级数字助理”。
在当前的AI应用开发与更新过程中,拥有百亿级参数规模的大语言模型已成为开发者的主流选择。据阿里云公布,其研发的Qwen-14B模型在提高小尺寸模型性能的同时,更在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12项权威测试中表现最为突出,超越了所有参测的SOTA(即当前最先进技术)大模型,包括超越了Llama-2-13B,以及与Llama 2的34B、70B模型相比,其表现同样不落下风。值得一提的是,Qwen-7B也进行了全新的升级,其核心指标最高提升了22.5%,展现了我国在AI大模型领域的强大实力与持续创新。
Qwen-14B性能超越同尺寸模型
当前,开源成为了我国大型模型的主流策略。《中国人工智能大模型地图研究报告》揭示,我国超过50%的自主研发大型模型已经实现开源,并且正在快速向通用型和专业型的大型模型两大地步推进。除了通义千问,由王小川创办的百川智能公司在短短一个月内就使通用型模型的参数规模翻了一番。继今年6月推出拥有70亿规模参数的Baichuan-7B开源模型之后,该公司又在7月推出了拥有130亿参数规模的Baichuan-13B开源模型,展现出了强大的技术实力。
大模型在专业领域中往往受到行业数据和适用性的限制,这导致它们的开源模型参数规模存在较大的差异。今年5月,知乎已经开放了拥有100亿参数规模的CPM-Bee 10b模型,该模型在搜索场景中应用广泛。而在金融行业方面,度小满在今年9月才开源了金融大模型“轩辕70B”,其参数规模达到了70B,同时具有上下文长度达到8k以上的特点。
有业内人士指出,在一些垂直领域并不需要参数量很高、通用能力很强的模型,几十到百亿左右参数规模的模型,结合垂直领域数据,就可以发挥很好的价值。对行业而言,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练,只需下载预训练好的模型并进行微调,就可快速构建高质量模型。这正是开源大模型推动各行业发展的底层因素。
阿里云CTO周靖人表示,阿里云将持续拥抱开源开放,推动中国大模型生态建设。阿里云还牵头建设了中国最大的AI模型开源社区魔搭ModelScope。过去两个月内,魔搭社区的模型下载量从4500万飙升到8500万,增幅接近100%。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!