文章主题:全国高校人工智能与大数据创新联盟, 区块链专委会, 高校元宇宙专委会, 新商科专委会
复旦MOSS十年磨一剑。大模型时代,复旦大学正在闯出一条人工智能新路。ChatGPT的革命性体现在大模型的“涌现能力”上。2023年上半年,复旦MOSS、百度文心、阿里通义、华为盘古、讯飞星火、商汤日日新……国内外近千款大模型竞技角逐。这是一条“狂飙”的新赛道。2022年底,对话式大型语言模型Chat GPT火爆出圈,激起AI领域“千层浪”,也带动大模型这一重要的底层基座变得炙手可热。今年以来,国内“千模大战”趋于白热化。作为生成式人工智能的技术底座,大模型无疑是兵家必争之地。科技部中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,国内大模型的“出产地”集中在北京、上海、广东和浙江等省市,这4个地方也是近3年人工智能服务器采购数量最高的地区。 在复旦大学计算机学院教授、复旦MOSS系统负责人邱锡鹏看来,争夺大模型的技术底座话语权,意义重大。相比于国外技术实力,目前国内大模型还有一定差距,体现在语料清洗、工程、算法等方面,对自主研发的要求很高。再往生态圈延伸,国内大模型需要从头到底有一套自主研发的技术,适配国内的配套硬件,保障在任何环节不被卡脖子。邱锡鹏认为,在国内城市中,上海在前沿科技领域具有独特的优势,体现在人工智能企业数量多、能级高,从底层技术到大模型、算力,从系统设计到应用,全链条企业都有涉及,更容易从生态上做规划。就在近日,《上海市推动制造业高质量发展三年行动计划(2023-2025年)》出炉,其中对大模型、算力等多方面作出指引,提出“瞄准人工智能技术前沿,构建通用大模型,面向垂直领域发展产业生态,建设国际算法创新基地”。邱锡鹏认为,上海应发挥自身优势,在AI大模型领域走出有中国特色的创新路。邱锡鹏强调,过去5个月来,复旦MOSS系统日夜成长,不断迭代优化,比如:4月20日,第三轮迭代版本MOSS003大模型上线,成为国内首个插件增强的开源对话语言模型。“相比2月‘出生’时,如今的MOSS系统性能提升不少,主要表现在逻辑能力、无害性、有用性等方向。大模型靠大量语料来训练,一些能力已超越大部分成年人。“围绕大模型,我们做的不仅仅是模型本身,还有很多挑战要解决。”邱锡鹏举例说,其中一个就是普惠化,即将大模型巨大算力成本降下来,“过去优化一个百亿参数量级的大模型,需要数个A100芯片做硬件支撑,一台机器就要100多万元,并非普通研究机构承担得起。”5个月来,这也是邱锡鹏的主要研究方向之一。就在近期,他带领团队发布了低内存优化技术(LOMO),可将大模型训练内存使用量降低到之前的10.8%,新方法能够在一台消费级显卡的机器上,对650亿参数大模型进行全参数微调,大大降低了使用门槛。据了解,目前邱锡鹏所在的复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。当前,复旦MOSS研发团队成员主要来自复旦大学计算机科学技术学院的老师及研究人员。其中,黄萱菁教授作为自然语言处理实验室学术带头人,主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务;邱锡鹏教授研究方向为自然语言处理、深度学习,围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用等开展研究;张奇教授研究领域包括自然语言处理,信息检索,数据密集型计算;郑骁庆副教授研究领域包括自然语言理解,语义万维网,智能系统。团队成员在人工智能领域都有不同程度的研究成果。复旦MOSS十年磨一剑终获突破。MOSS项目自2009年起,到2021年止,走过十余年历程。项目围绕自然语言处理表示学习的四个层面(表示模型、学习机制、关键技术以及开源应用)开展研究。围绕这四个层面,项目在理论研究、技术创新以及开源应用上都做出了业界领先的研究成果,推动了自然语言处理通用表示学习的发展。2023年3月24日,复旦大学计算机学院邱锡鹏教授MOSS科研团队获钱伟长中文信息处理科学技术奖一等奖。钱伟长中文信息处理科学技术奖是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予该领域在基本方法或关键技术上有原始创新或重大突破,对推动我国中文信息处理事业或行业进步起到重要作用,创造出较大经济效益或社会效益的项目或个人。邱锡鹏教授团队等完成的“大自然语言表示学习及其开源应用”占有一席之地,MOSS项目的主要完成人为邱锡鹏、桂韬、张奇、颜航、黄萱菁。在成绩的背后,下一步,我们该如何复现ChatGPT这一大型语言模型?复旦MOSS还将面临哪些挑战?邱锡鹏认为,第一步需要先实现语言模型基座,第二步是指令微调,第三步是能力不断强化迭代。虽然这些关键步骤以及大概方法已经十分明朗,但每一步的细节都需要我们自己去一一摸索,还是充满着各种未知的挑战性;第一步主要是Transformer架构上进行模块优化。首先,对于ChatGPT来说,它并没有特别关注中文,很多时候只是直接把中文按照英文的方式进行编码,我们作为中国人自然是希望对中文进行优化,就需要重新实现更好的中文编码,并想办法把中文和英文打通;此外,将来如果接入多模态的话,编码问题同样会带来架构设计以及训练稳定性等诸多问题与麻烦;第二步是指令微调,个人认为指令微调的难度甚至比预训练更高。在预训练阶段,大家可以利用一些大公司成熟的预训练模型,在短时间内取得不错的训练效果;但是指令微调则非常难以立马做到,这一点上和OpenAI之间存在着非常明显的差距。在与人类对齐方面,想要让模型的回答尽可能符合我们人类的思维习惯,也很难做到。而且考虑到OpenAI暂不开源,我们只能够一步步慢慢向前探索。如果我们要想超过ChatGPT,肯定就得去找到一条比它更好的实现路径,而这个过程无疑充满艰险。同时,邱锡鹏表示,一段时间以来,开源社区对ChatGPT十分关注,涌现出很多优秀的开源数据和模型,但是已开源项目大多有以下局限:仅包含单轮指令数据、仅聚焦模型有用性、以英文为主、模型参数量较小(通常不足百亿)。与之相比,MOSS开源数据大多为多轮对话数据,涵盖模型有用性、忠实性、无害性,包含中英双语;开源模型包含160亿参数,具有更多的涌现能力和更强的知识性。MOSS还开源了插件增强对话模型,这种能力是目前国内独一无二的。未来,MOSS将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。对于未来,人工智能大模型将朝哪个方向发展?邱锡鹏认为:以前一直做的人工智能模型都是弱人工智能模型,比如AlphaGo只能下围棋。目前ChatGPT的表现类似于通才,但是它可能在细分的专业性上和行业中比较顶级的专家还有很大的差距。我认为它将来会有不同的分支,往不同的专业方向上发展,以大模型为基础,产生很多的分领域的不同模型。这对于之前的人工智能研究来说应该都是一个大的颠覆。对于未来,我是比较乐观的。我们的人工智能以场景的丰富度或者应用层面的创新性领先,在AIGC或者大模型浪潮中,应用驱动也是很重要的。有了大模型技术底座之后,我们再去把人工智能产品打磨好,未来的人工智能一定会为我所用,为民造福。领略复旦MOSS团队成员风采:邱锡鹏,教授,博士生导师,复旦大学计算机科学技术学院。于复旦大学获得理学学士和博士学位。研究方向为自然语言处理、深度学习,发表CCF-A/B类论文70余篇。主持开发了开源自然语言处理工具FudanNLP [GitHub] [Google Code]、FastNLP [GitHub] [Gitee],获得了学术界和产业界的广泛使用。研究方向:围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用,包括:自然语言表示学习、预训练模型、信息抽取、中文NLP、开源NLP系统、可信NLP技术、对话系统等。黄萱菁,复旦大学计算机科学技术学院教授,博士生导师,国家级领军人才,上海市优秀学术带头人,复旦大学自然语言处理实验室学术带头人。主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务。张奇,现任复旦大学计算机科学技术学院教授、博士生导师。1999年至2003年于山东大学计算机科学与技术学院读本科,2003年至2009年于复旦大学计算机科学技术学院硕博连读,2009年留校任教至今,2012年晋升副教授,2018年晋升教授。作为项目负责人承担了国家自然科学基金面上等项目。主编教材:《自然语言处理导论》(初稿)。
郑骁庆,现任复旦大学计算机科学技术学院副教授, 博士生导师。毕业于浙江大学计算机科学与技术学院,获博士学位,之后开始在复旦大学计算机科学技术学院任教。曾以国际师资研究员(International Faculty Fellow)的身份长期在美国麻省理工学院信息技术团队从事数据集成和语义技术方面的研究。
(注:本文由全国高校人工智能与大数据创新联盟独家整理,转载请注明出处。)
全国高校人工智能与大数据创新联盟
全国高校人工智能与大数据创新联盟(简称:高校联盟)是由清华大学、浙江大学、中南大学、东北大学、上海工程技术大学、重庆邮电大学、东北林业大学、佛山科学技术学院、曲阜师范大学、黑龙江大学、海豚大数据科技等全国54家高校、企业共同发起,于2018年5月26日在北京中国科技会堂正式成立。迄今为止,联盟发展会员300多家, 覆盖全国20多个省市。联盟由一批积极投身于“人工智能、大数据、区块链”教育事业的高校、科研机构、企事业单位和个人自愿组成的公益性、全国性学术交流服务平台。中国工程院原常务副院长、中国工程院院士潘云鹤、中国科学院院士陈国良、教育部政策法规司原司长孙霄兵担任联盟名誉理事长,中国工程院院士谭建荣担任联盟理事长。联盟工作接受工信部、国家网信办等政府部门行政管理和业务指导。联盟主要工作是推进产教融合、校企合作、协同育人。(加盟微信13651193492)
高校区块链专委会
全国高校人工智能与大数据创新联盟 blockchain 专委会(简称:高校区块链专委会)是一个跨足40多家国内外高校、企业和机构的专业委员会,旨在推动区块链技术的发展和创新。该委员会于2019年12月7日在广东佛山市成立,并已发展出70多家会员,其中包括中国工程院院士、浙江大学教授陈纯等知名学者。作为该专委会的名誉顾问,包括北京航空航天大学数字社会与区块链实验室主任蔡维德教授、中国计算机学会区块链专委会主任斯雪明教授以及中国人民银行数字货币研究所副所长狄刚等业内专家。此外,北京大学信息科学技术学院区块链中心主任陈钟教授担任该专委会的主任一职,为委员会的发展提供了强有力的支持。高校区块链专委会的核心任务在于推动高校区块链教育的开展,并为区块链专业建设和学科发展提供专业的咨询服务。通过不断地努力和创新,该专委会期待着在我国区块链领域的发展中发挥更加重要的作用。
高校元宇宙专委会
全国高校人工智能与大数据创新联盟元宇宙专业委员会(简称:高校元宇宙专委会)成立于2022年11月5日,由清华大学、湖南大学、浙江大学、四川大学、汕头大学、河北金融学院、保定市元宇宙协会、英伟达中国、海尔衣联网研究院、海豚大数据科技(天津)有限公司等全国20多为高校、企业和机构联合发起。该专委会旨在推动元宇宙专业建设和学科发展,加强校企合作,并为元宇宙教育教学提供专家咨询服务。在该专委会的成立过程中,中国工程院院士、计算机软件与虚拟现实领域专家赵沁平担任名誉顾问,中国工程院院士、北京航空航天大学电气与自动化学院名誉院长、中国航天科工集团有限公司科技委高级顾问李伯虎担任名誉主任,清华大学信息国研中心可信软件和大数据部常务副主任邢春晓担任主任委员。目前,已有30多家高校和企业加入该专委会。作为一家专注于元宇宙领域的专业机构,高校元宇宙专委会的主要任务包括促进高校元宇宙教育的发展、加强校企间的合作、推动元宇宙专业的建设以及促进相关学科的发展。通过这一系列的努力,我们希望为元宇宙领域的教育和研究提供更多的支持,以助力我国元宇宙产业的繁荣和发展。
高校新商科专委会
全国高校人工智能与大数据创新联盟新商科专委会(简称:高校新商科专委会)成立于2019年6月28日,由中央财经大学、中国人民大学、中国石油大学、北京师范大学、北京化工大学、北京石油化工学院、北京工商大学、北京语言大学、华北水利水电大学、广西科技大学、河北金融学院、天津财经大学、北京物资学院、西藏民族大学、北京信息职业技术学院、北京联合大学、北京经贸职业学院、北京财贸职业学院、海豚大数据科技等20余家全国高校和企业共同发起。该专委会致力于推动我国新商科教育的进步和发展,为新商科教育提供专业的专家咨询服务。至今,已有超过100所高校和企业加入该专委会。
在这里,我们将对原文进行重新包装,使其更具有专业性和表达力。版权提示:我们所推送的文章及图片均源于公开网络,我们在确保信息准确性的前提下,会尽可能地注明作者和来源。对于可能出现的错误或侵权行为,我们保留追究法律责任的权利。同时,如果您认为我们的内容存在侵犯您权益的情况,请您及时联系我们,我们可以进行相应的删除或者授权操作。
联盟“资料图书馆”
左右滑动查看更多
微信咨询
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!