10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。
昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。下载地址Skywork-13B下载地址(Model Scope): https://modelscope.cn/organization/skyworkSkywork-13B下载地址(Github):https://github.com/SkyworkAI/Skywork除模型开源外,Skywork-13B系列大模型还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。同时,昆仑万维「天工」Skywork-13B系列大模型即将全面开放商用——开发者无需申请,即可商用。Skywork-13B系列大模型的开源将为大模型的场景应用和开源社区发展提供最佳技术支持,降低大模型商业门槛,推动人工智能技术落地千行百业,为人工智能生态建设添砖加瓦,携手开源社区探索未知世界、创造美好未来。两大模型 领先行业昆仑万维「天工」Skywork-13B系列包括两大模型及150B Tokens高质量中文数据集。Skywork-13B-Base模型Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。Skywork-13B-Math模型Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。Skypile/Chinese-Web-Text-150B数据集该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为150B,目前开源最大的中文数据集之一。除此之外,Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动通用智能(AGI)的实现。
五大特点 全面超越昆仑万维「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。Skywork-13B系列模型的五大特点:1.最强参数表现:全面超越同等规模大模型本次开源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等几大权威评估基准中全面超越LLaMA2-13B等开源大模型,在同等规模大模型间取得最佳效果。(截止至10月25日数据)

昆仑万维于2008年成立,2015年深交所上市,从游戏起家到AII In AGI与AIGC, 全面构建多元化的业务生态,至今十余年的发展,我们始终致力于为全球用户提供领先的互联网产品与服务。现今,昆仑万维还在不断探索AI领域的无限可能。目前昆仑万维逐渐构建了AGI与AIGC、海外信息分发与元宇宙、投资三大业务板块,业务覆盖全球一百多个国家和地区,全球平均月活跃用户近4亿。
凭借对科技发展趋势的超前预判,昆仑万维早在2020年便已开始布局AIGC领域。至今,已积累近三年的相关工程研发经验,并建立了行业领先的预训练数据深度处理能力,昆仑万维也在人工智能领域取得了重大突破,目前已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵,是国内模型技术与工程能力最强,布局最全面,同时全身心投入开源社区建设的企业之一。

