文章主题:
ChatGLM 简介
https://chatglm.cn/login
目录
ChatGLM 简介
ChatGLM 特点
ChatGLM 基于智谱 AI GLM-130B
国内产学研界大模型重镇:5支学术界团队和10大产业界力量
01:复旦邱锡鹏教授团队
02:哈尔滨工业大学智能技术与NLP研究室
03:清华AIR
04:西湖大学NLP实验室
05:IDEA研究院
接下来聊聊10家极具代表性的产业界力量:
01:百度
02:阿里达摩院
03:字节跳动
04:小冰
05:华为
06:腾讯
07:京东
08:科大讯飞
09:澜舟科技
10:浪潮信息
🌟🚀智谱AI引领创新,推出GLM系列ChatGLM-6B🌟🔍——全能对话语言模兽数量级突破!🌍🌐这款尖端技术的产物,基于革新性的General Language Model(GLM),拥有惊人的62亿参数,实现了中英双语流畅交流。它不仅是科技的璀璨结晶,更是AI语言理解力的巅峰之作!💪🔍ChatGLM-6B不仅结构强大,还能轻松应对——通过量化技术,用户无需担心高昂配置,只需6GB超低内存(INT4量化级别),就能在大众级显卡上实现本地部署。🚀💻这不仅是科技与生活的无缝对接,更是智慧普及的里程碑。拥抱ChatGLM-6B,开启对话新时代!🌍🎉
GLM 模型开源地址:
https://github.com/THUDM/ChatGLM-6B🌟ChatGLM-6B🚀:超大规模双语对话模型,62亿参数大揭秘🔍!🚀基于GLM架构,专为中英流畅交流而生💪。无需担心高昂GPU配置,INT4量化只需6GB内存,轻松实现本地部署在家!💻💡ChatGLM-6B的独特之处在于它对中文问答和对话的深度优化,延续了ChatGPT的成功基因。经过海量1T标记数据的锤炼,结合精细微调与创新学习策略,它已能生成贴近人性的答案,让每一次互动都充满智慧火花🔥。欲了解更多细节,敬请浏览我们的博客文章链接:[博客链接]💻,那里有详尽的技术解析和实例展示,助你深入理解并充分利用这款卓越的语言模型。记得关注我们,获取更多AI技术动态更新!📢#ChatGLM-6B #双语对话 #本地部署
🌟ChatGLM-6B虽小巧,却存在局限性挑战: fakt_error与偏见风险、薄弱的语境理解、自我认知混淆,以及对指令的异域反应(英文指令生成中文悖论)。务必审慎评估,以避免误导。💡注意:在使用前务必全面了解潜在问题,确保无误解发生。
ChatGLM 特点
具体来说,ChatGLM-6B 具备以下特点:
🌟ChatGLM-6B🚀,超大规模的双语语言模型,经过1TB海量中英数据的深度磨炼,不仅具备卓越的跨语言理解力,还能流畅地在两种语言间切换。它的1:1训练策略确保了无缝的交流体验,无论是学术讨论还是日常对话,都能轻松应对。🌍💻让全球沟通无界,ChatGLM-6B带你领略双语世界的无限可能!SEO优化提示:#双语预训练# #超大规模模型# #中英切换自如
🌟模型升级与规模优化🌟基于GLM-130B的成功经验,我们对二维RoPE的位置编码进行了改进,采用更高效的策略。同时,我们的架构回归经典,采用了传统的FFN结构,保证了深度学习的稳健性。这款ChatGLM-6B,参数量达到了惊人的62亿,不仅为研究者提供了强大的工具,也让个人开发者有机会进行微调和快速部署。🚀无需担心复杂调整,ChatGLM-6B轻松驾驭!
ChatGLM-6B的部署灵活性不容小觑,其采用FP16半精度运算,推理所需的内存只需13GB的高端显存,通过模型量化技术,这一显著需求可轻松降至10GB的INT8和6GB的INT4级,这样的优化使得这款模型能够在主流消费级硬件上流畅运行,降低了部署的门槛,实现了高效且广泛的部署可能性。
更长的序列长度:相比 GLM-10B(序列长度 1024),ChatGLM-6B 序列长度达 2048,支持更长对话和应用。
人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式,使模型初具理解人类指令意图的能力。输出格式为 markdown,方便展示。
不过由于 ChatGLM-6B 模型的容量较小,不可避免的存在一些局限和不足,包括:
相对较弱的模型记忆和语言能力。在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息,也不太擅长逻辑类问题(如数学、编程)的解答。
可能会产生有害说明或有偏见的内容:ChatGLM-6B 只是一个初步与人类意图对齐的语言模型,可能会生成有害、有偏见的内容。
较弱的多轮对话能力:ChatGLM-6B 的上下文理解能力还不够充分,在面对长答案生成和多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。
GLM 团队表示,ChatGLM 距离国际顶尖大模型研究和产品还有一定差距,未来将持续研发并开源更新版本的 ChatGLM 和相关模型。GLM 团队也欢迎大家下载 ChatGLM-6B,基于它进行研究和(非商用)应用开发。
ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
ChatGLM-6B 是智谱 AI 在开源社区贡献的重要成果之一,也是清华大学在自然语言处理领域的创新突破之一。智谱 AI 希望通过开源 ChatGLM-6B 模型,促进对话系统的发展和应用,并与广大开发者和研究者共同探索更高效、更智能、更人性化的对话交互方式。
目前ChatGLM-6B 的不足可能包括以下几点:
它需要遵守特定的许可协议,不能用于商业目的或者侵犯他人权利。
它可能存在一些生成质量不高或者不符合人类偏好的回答,需要进一步改进模型或者引入人类反馈。
它可能没有覆盖到所有的中英文自然语言处理任务,需要根据不同的场景进行适当的微调或者适配。ChatGLM 基于智谱 AI GLM-130B
GLM-130B 是一个开源的、支持中英双语的双向密集模型,具有 1300 亿参数,使用 General Language Model (GLM) 算法进行预训练。它可以在单个 A100 (40G * 8) 或 V100 (32G * 8) 服务器上支持带有 1300 亿参数的推理任务。结合 INT4 量化技术,可以降低硬件要求。
GLM-130B 是目前最大规模的开源双语预训练模型之一,也是 GPT-3 级别的模型之一。它在多个中英文自然语言处理任务上都取得了优异的表现。
在线版的chaglm 目前还在内测阶段。根据测试大模型的各项能力都已经接近chatgpt。对比测试了一下ChatGLM与ChatGPT在某些问题上的差异。
总的来说,ChatGLM的效果是比较惊艳的,文心出来之前应该是目前国内最强!我尝试了一些常用的prompt,例如:写公文、古诗词、活动策划、经营企划等这一类开放性强的话题,也问了代码生成、SQL生成之类的功能性问题,效果都还不错。
先说结论,我觉得效果不错,上下文有待提高,但是感觉已经可以达到ChatGPT的70-80%吧,并且先于“文心”。并且官方微博也是说的十分谦虚,承认与国际顶尖大模型还是存在一定距离。
但是,在某些问题上,ChatGLM的回答我只能说很让人疑惑,同时有些问题我也同ChatGPT进行了对比。我挑了几个展示一下,也算是给官方一些反馈:
ChatGLM自我认知出错(很离谱)
自我认知
ChatGLM固执的“认为”自己是openai开发的,有些搞笑。但这点其实也不稀奇,因为ChatGPT出来以后很多公司都用了他们的接口做了数据收集工作,同时国内镜像也乐于收集大家的提问。在训练的过程中,可能这部分数据就会使得GLM不受控。
Python写Bug并修正,完败ChatGPT(究极离谱)
这里让它生成Bug着实有点Bug!
在第一次生成里,生成的代码非常简单,但是ChatGLM认为会出现赋值错误。经过“修改”后,貌似也没有任何改变。后面就更离谱了,生成的东西难以评价。。。
ChatGPT给出的Bug以及修改就没啥问题,这点对比还是比较明显的。
网页长图截取回答
游戏NPC开发
在开放话题上,ChatGLM的回答虽然没有ChatGPT流畅贴切,但也大抵不差,作为国内可访问的平替也不错了。
但是在逻辑性回答上,毛病确实多,这里只是放了一点。希望官方团队再接再厉!
国内产学研界大模型重镇:5支学术界团队和10大产业界力量
小编梳理了百家争鸣的国内产学研界大模型重镇,代表性机构和代表性人物,共计5支学术界团队和10大产业界力量,排名不分先后。当然极有可能挂一漏万,欢迎在评论区中补充。
首先是5支学术界团队:
01:复旦邱锡鹏教授团队
不鸣则已,复旦大学教授邱锡鹏带领的NLP团队没有丝毫预告,猛然在中国激起类ChatGPT产品第一朵浪花。
产品名称MOSS,致敬《流浪地球2》里拥有自我意识的AI,参数量比ChatGPT小了一个数量级,在训练方式上,直接选择和其他AI模型进行对话。MOSS即将面向公众进行内测,还要在3月马不停蹄开源代码。
据公开资料,邱锡鹏是复旦大学理学学士和博士,研究方向为中文NLP、开源NLP系统、可信NLP技术、对话系统等,共发表CCF-A/B类论文70余篇,并主持开发了开源NLP工具FudanNLP 、FastNLP。他与中国计算机学会自然语言处理专委会副主任、教授黄萱菁都来自复旦大学NLP实验室,二人均在复旦大学取得学士和博士学位。
黄萱菁的研究领域为NLP、文本检索、云计算,复旦博士毕业后留校任教。2008年前后,她以访问学者身份前往MIT,现在是复旦大学AI、NLP学科方向带头人。曾入选入选“人工智能全球女性”“AI 2000人工智能全球最具影响力提名学者”及“福布斯中国2020科技女性榜”。
02:哈尔滨工业大学智能技术与NLP研究室
哈工大智能技术与自然语言处理研究室(ITNLP Lab)自上世纪80年代初,就开始从事NLP研究,代表性成果是提出了汉字语句输入的思想,并实现了国内外第一个语句级汉字键盘输入系统。周明、王海峰、张民、荀恩东都出自哈工大NLP一脉。
教授王晓龙是实验室负责人。王晓龙硕士期间就读于天津大学,并在哈工大拿到计算机应用博士学位,名为insun的拼音输入法就是他的研究成果。实验室教师还包括博士刘秉权、博士刘远超 、博士孙承杰等教授。
刘秉权,本硕博均就读于哈工大计算机专业,现为智能技术与自然语言处理研究室副主任,中国计算机学会高级会员、CCF中文信息技术专委会委员,作为主要研制人参加了“微软拼音输入法”(与微软合作)和“手机操作系统汉字智能输入”(与日本富士通合作)项目。
刘远超主要研究兴趣在智能信息处理、自然语言处理与理解、数据挖掘等领域,多次担任ACL、EMNLP、COLING、NIPS等CCF人工智能顶级会议及等学术刊物的审稿专家。
孙承杰在哈工大先后取得硕博研究生学位后,2009年起在留校任教,主要研究方向为NLP、信息抽取、信息推荐、文本挖掘和机器学习,承担和参加多项国家自然科学基金项目和国家“863”项目。
03:清华AIR
清华AIR,全称清华大学智能产业研究院,于2020年由多媒体及AI领域的世界级科学家张亚勤创建,张亚勤本人现担任清华AIR院长,同时也是清华大学智能科学讲席教授,中国工程院院士。
张亚勤本硕毕业于中国科学技术大学,在华盛顿大学取得博士学位,后当选美国艺术与科学院院士,澳州国家工程院院士,IEEE院士。他曾在微软公司工作16年,1999年和李开复博士等共同创立微软中国研究院(微软亚洲研究院前身)并担任第二任院长。又于2014年9月加盟百度公司担任总裁。
△张亚勤
清华AIR还聚集了刘洋、马维英、聂再清、刘菁菁等NLP方向的AI大牛。
刘洋是AIR执行院长,主要研究方向是NLP。武汉大学本科毕业后,刘洋在中国科学院计算技术研究所获博士学位,曾担任ACL亚太分会创始执委兼秘书长、Computational Linguistics编委。2010年,他在NLP顶会计算语言学上发表国内第一篇长文,并在ACL上成为国内第一个做tutorial学者。
马维英,IEEE Fellow,博士毕业于美国加州大学圣芭芭拉分校,AIR惠妍讲席教授、首席科学家,他的研究方向包括人工智能的几个核心领域,如大数据挖掘、ML、自然语言理解与生成、CV等。他拥有160多项技术专利,此前曾任微软亚洲研究院常务副院长、字节跳动副总裁兼AI Lab主任。
另一位AIR首席研究员聂再清本硕毕业于清华大学计算机科学与技术系,博士时期在美国亚利桑那州立大学师从美国人工智能学会前主席Subbarao Kambhampati。2004年起,在微软亚洲研究院历任副研究员/主管/高级研究员、首席研究员;2017年至2020年,在阿里担任天猫精灵首席科学家、达摩院AI Labs北京研发中心负责人。
刘菁菁同样是AIR首席研究员,拥有MIT计算机科学博士、剑桥大学MBA学位,曾任美国微软资深首席研究部门经理,带领科研团队在视觉加语言多模态机器学习,自然语言处理等人工智能领域开展科学研究。
04:西湖大学NLP实验室
西湖大学NLP实验室团队核心成员有博士张岳、蓝振忠等人。
张岳本科毕业于清华大学计算机专业,硕士、博士期间均就读于牛津大学,2010年3月-2012年6月在剑桥大学计算机科学专业从事博士后研究,现为西湖大学长聘副教授,受邀编写了剑桥大学的NLP教材。根据统计,2012年-2020年期间,张岳在NLP领域的顶会发表数量是全球第三。
△张岳NLP课程可在B站观看
蓝振忠是中山大学校友,博士毕业于卡内基梅隆大学(CMU)计算机学院,多次担任ACM Multimedia, CVPR, ECCV, ICCV 等国际顶会的论文评审专家。加入西湖大学前,他在谷歌AI工作;加盟西湖大学后,蓝振忠组建了一支30多人的团队,正在尝试整合多种AI技术,构建虚拟心理咨询师。
05:IDEA研究院
IDEA研究院,全称粤港澳大湾区数字经济研究院,创立人沈向洋。沈向洋是视频检索领域的开创者,也是ACM和IEEE院士。他博士毕业于卡内基梅隆大学,是图灵奖得主Raj Reddy的学生,与李开复、洪小文同门参与创建微软亚洲研究院(MSRA),曾担任微软公司全球执行副总裁。
IDEA研究院下大模型负责人张家兴同样出身MSRA。在获得北京大学博士学位后,张家兴先后就职于百度、微软、阿里巴巴,曾任微软亚洲研究院研究员、360数科首席科学家,2021年6月加入IDEA。去年,张家兴带领团队推出了国内第一个以中文为主的AI绘画模型“太乙”,被称为中文版Stable Diffusio。据透露,“太乙”训练数据量超过了1亿中文图文对。
△太乙根据提示次“小桥流水人家,水彩”生成的画作
接下来聊聊10家极具代表性的产业界力量:
01:百度
提起百度的NLP技术,最被人熟知的是文心大模型。百度日前已经官宣要在3月把“文心·一言”(ERNIE Bot)向公众开放,它就是基于文心大模型技术推出的生成式对话产品。
2022年,DALLE-2、Stable Diffusion引领的AI绘画狂潮中,百度顺势推出同以文心大模型为底座的AI艺术和创意辅助平台“文心 · 一格”。
百度这方面坐镇和带队的,自然是NLP领域华人第一人——王海峰。百度CTO王海峰毕业于哈尔滨工业大学,博士学历,博士毕业后王海峰加入微软亚洲研究院,进行自然语言处理方向的研究,之后历任isilk.com研究科学家,东芝(中国)研究开发中心副所长兼研究部部长等职位。2010年1月加入百度,从NLP应用开始打造了百度NLP核心团队。
核心团队成员之一有2006年浙江大学毕业后加入,现任百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜,她整体负责百度AI技术平台和智能云AI产品,百度产业级深度学习开源开放平台飞桨正是她负责。
吴华,中科院自动化研究所博士毕业,现任百度技术委员会主席,负责百度翻译项目。她曾担任自然语言处理领域国际会议ACL 2014年的程序委员会主席,是中国本土企业首位ACL程序委员会主席。
马艳军,山东大学、清华大学校友,博士毕业于爱尔兰都柏林城市大学,百度深度学习技术平台高级总监。曾任《Machine Translation》杂志编委,并多次担任顶级国际会议的 AreaChair等职务,发表论文20余篇。小度机器人正是马艳军基于深度问答技术在2013年孵化。
02:阿里达摩院
阿里达摩院机器智能技术实验室下属的语言技术实验室,是阿里巴巴负责NLP技术研发的核心团队。
现任语言技术实验室负责人黄非,从ACM杰出科学家司罗手中接过重担。加入达摩院之前,他在卡内基梅隆大学攻读博士,之后NLP研究工作在IBM Watson和Facebook开展,在NLP和AI的顶会及期刊上发表文章40多篇;另一位团队负责人邴立东和司罗、黄非同为卡内基梅隆大学校友,曾多次担任ACL、EMNLP等会议的领域主席。
前文提到的M6是阿里达摩院推出的大模型之一,同样为人所熟知的还有基于统一学习范式OFA等底层技术打造的阿里通义大模型,之所以为“通义”,是因它具备搞定多种任务的“大一统”能力。
至于达摩院被曝要推出的类ChatGPT产品,就是在阿里通义大模型体系的基础上融合升级。
△阿里内测中的达摩院版ChatGPT提前曝光
03:字节跳动
字节跳动AI Lab成立于2016年,旨在为字节跳动内容平台提供算法和技术支持,研究领域主要涉及NLP、数据挖掘、ML、语音与音频等,推出的NLP相关产品有为字节跳动所有产品提供翻译服务的Byte Translator,以及涉猎体育、金融、时事的新闻写作机器人Xiaomingbot。
字节跳动AI Lab团队总监之一李航,同时当选三大国际顶会(ACL,IEEE,ACM) Fellow。他师出日本,硕士毕业于日本京都大学电气工程系,后在东京大学取得计算机科学博士学位,主要研究方向包括信息检索、NLP等,曾在微软、华为先后任职。
本月初,字节跳动AI实验室被曝有开展类ChatGPT产品和AIGC相关研发。最新消息爆料,字节跳动正在布局大模型,在语言和图像两种模态上发力。其中,语言大模型团队由字节搜索部门领导,目前规模在十数人左右;图片大模型团队由智能创作团队牵头。
04:小冰
2020年,小冰公司从微软总部拆分,独立运营。其拥有的小冰框架以NLP为基础,是目前是全球承载交互量最大的完备AI框架之一。
本周,小冰公司的“小冰链”开放了小范围公测,不同于ChatGPT,小冰链将其思考过程完整、透明地呈现在用户面前,而且还能经过思考实施(某种)行动。
△小冰链的文字写作能力
公司CEO李笛毕业于清华大学,前微软(亚洲)互联网工程院副院长,微软时期创立了微软AI情感计算框架,现在他领导全球团队,负责人工智能小冰框架系统的技术研发、产品革新及商业落地
05:华为
2021年,华为云发布“盘古”大模型,这是业界首个千亿参数中文语言预训练模型,预训练阶段学习了40TB中文文本数据,接近人类中文理解能力。
华为这方面的核心人物,当属国际欧亚科学院院士、IEEE Fellow、华为云人工智能领域首席科学家田奇。田奇本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习获博士学位。田奇研究方向本为CV,但近几年也转向NLP领域。
△田奇
06:腾讯
腾讯麾下有“混元”AI大模型(HunYuan)。去年年底,腾讯HunYuan进一步推出国内首个低成本、可落地的NLP万亿大模型,并再次登顶自然语言理解任务榜单CLUE。
HunYuan是业界首个可在工业界海量业务场景直接落地应用的万亿NLP大模型,最快用256张卡,1天内就能训练完成,成本直接降至原来的1/8。
△混元AI大模型支持的对话应用案例
俞栋是腾讯AI Lab副主任,同时当选ACM/IEEE/ISCA三大顶会Fellow,主要研究方向是NLP与语音识别。浙大电子工程学本科毕业后,俞栋在美国印第安纳大学计算机系和中国科学院自动化所模式识别与智能控制拿下两个硕士学位,最后在美国爱达荷大学计算机完成博士学业。加入腾讯之前,俞栋是微软研究院首席研究员。
07:京东
本月初,京东云宣布,旗下言犀人工智能应用平台将整合过往产业实践和技术积累,推出产业版ChatGPT智能人机对话平台,预计参数量达千亿级。
京东集团副总裁、IEEE Fellow何晓冬表示,京东ChatGPT领域拥有丰富的场景和高质量的数据,京东云言犀每天就能和用户进行1000万次交互。何晓冬是京东深度学习及语音和语言实验室的负责人,本科毕业于清华大学后,何晓冬在中国科学院取得硕士学位,后又至美国密苏里大学哥伦比亚分校攻读博士,研究主要集中在DL、NLP、语音识别等领域。
08:科大讯飞
科大讯飞是国内NLP行业龙头。ChatGPT爆火后,科大讯飞在投资者互动平台表示,在ChatGPT主要涉及的NLP相关技术和方向上,公司具备长期深厚的积累。
科大讯飞公开资料披露,2022年12月,科大讯飞已经进一步启动生成式预训练大模型任务攻关,类ChatGPT技术将在今年5月落地公司AI学习机产品中。
科大讯飞副总裁、研究院执行院长是刘聪,于2001 年进入中国科学技术大学攻读电子信息工程专业。加入讯飞语音实验室后,开始了在语音识别领域的研究。现在,他同时担任语音及语言信息处理国家工程研究中心副主任。
现任科大讯飞AI研究院副院长刘权,博士毕业于中国科学技术大学电子工程与信息科学系、语音及语言信息处理国家工程实验室,主要研究领域是NLP,2020年至2021年,刘权带领团队获得NLP领域5个国际权威评测冠军,曾任国际常识知识推理会议Commonsense 2017学术委员会委员。
09:澜舟科技
澜舟科技创始人周明是闻名世界的NLP专家,先后就读于重庆大学、哈尔滨工业大学和清华大学,并在清华大学担任过副教授。创业前,周明长期在微软亚洲研究院担任NLP组的负责人、微软亚研副院长。周明在NLP领域发表的文章数量居世界前列,2012年至2020年期间,周明在NLP领域顶会发表的论文数量居全球第一。
澜舟科技给予Transformer的“孟子”大模型,走轻量化路线,仅包含10亿参数量,可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务。
△孟子大模型对图片内容的描述
上周,澜舟刚刚宣布与中文在线合作,要基于专用大模型开发一套预训练模型技术的文学创作辅助算法。
10:浪潮信息
去年年中,浪潮信息推出了4个技能大模型(SkillModel),分别为对话模型“源晓问”、问答模型“源晓搜”、翻译模型“源晓译”、古文模型“源晓文”,它们4个都基于“源1.0”大模型生成。“源1.0”是浪潮信息在2021年发布的巨量中文语言模型,参数量高达2457亿。
△浪潮“源”生成的新闻文本
浪潮信息在互动平台表示,公司在AIGC已从算力、算法和应用三个方面进行布局和长期研发投入。浪潮人工智能研究院首席研究员是吴韶华,他同时担任浪潮信息AI软件研发总监。他带领的团队除了推出“源1.0”,还研发了深度学习框架Caffe-MPI、人工智能开发服务平台AI Station。
ChatGPT珠玉在前,复旦MOSS一声不吭的出现,在国内掀起了更高一浪。
产学研三方都摩拳擦掌、蓄力待搏,在技术这块基石之上,能够垒起坚固高墙的人才成为了另一个必争之地,可以说,伴随着类ChatGPT产品在国内的推进,关于大模型人才的抢夺和竞争游戏,才刚刚开始。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!