对话复旦大学人工智能训练师:MOSS是来源于《流浪地球2》吗?它的未来目标是什么?
MOSS

对话复旦大学人工智能训练师:MOSS是来源于《流浪地球2》吗?它的未来目标是什么?

对话人物:复旦大学自然语言处理实验室MOSS项目人工智能训练师 贺正夫 问:MOSS是什么,主要有什么作用? 答:MOSS是一个对话式语言模型,它可以为人们的生活提供各种直接或间接的帮助。它可以进行生活常识问答,帮助查询天气、规划行程等;可以辅助高效办公,例如自动处理表格,生成大纲、草稿、翻译等,还掌握金融、医疗、教育等领域专业知识。许多行业正在引入以MOSS为代表的对话式语言模型,比如汽车语音助手、客服等,这些都将产生降本增效的效果。 问:您对MOSS的具体训练过程是怎样的? 答:大模型中参数的本质是海量的矩阵,这些矩阵对输入的文本进行简单、繁重、重复的数字运算,最终得到需要生成的内容。我们可以通过对网络上的语料进行收集、“清洗”,并让大模型从这些语料中学习知识。具体而言,学习过程就是不断“阅读”文本,并调整大模型内部参数,使其对语言的理解不断加深,最终获得某种“智能”,这个过程称为训练。 在搭建MOSS的过程中,我们通过三阶段“阅读”赋予MOSS强大的能力。一是基础知识获取阶段。MOSS通过广泛“阅读”网络上几乎所有的文本,由于巨大的参数量,其足以涵盖海量知识。二是对话能力获取阶段。MOSS通过“阅读”对话数据,学习利用第一阶段获取的知识,以对话的方式回答人类的问题。三是对齐阶段。由于有些回复可能会有误导性,MOSS会根据人类的反馈来抑制生成不符合人类法律和道德伦理的内容,使回答更客观、更理性。 问:MOSS和ChatGPT相比有哪些差异? 答:ChatGPT的训练数据涵盖十分广泛,用户体验良好。MOSS作为学术界的尝试,我们希望通过打造开源对话式的语言模型,向学术界分享更前瞻的理论和工程经验。 问:MOSS是来源于电影《流浪地球2》吗?它的未来目标是什么? 答:MOSS的名字与《流浪地球2》这部电影有关,电影中的人工智能机器人MOSS展现出极强的智能和理性,成为人类的得力助手。我们从对话式语言模型发展中看到了人工智能的巨大潜力,因此起名MOSS,这个名字寄托这我们对人工智能技术未来发展的期待。 未来的MOSS会越来越“聪明”。我们将充分利用火山引擎等平台提供的云端算力和资源,与更多同行开展模型迭代和技术交流,不断探索对话式大模型和大型语言模型的技术前沿,让人工智能技术更好地造福人类社会。 【新闻链接】人工智能训练师:让机器更“懂”人类 打开电脑,将采集的风声、雨声、溪流声等声音数据输入,“清洗”掉夹杂其间的噪音,对助听器数据模型进行“训练”,测试模型在真实场景的灵敏度……伴随着手指敲击键盘的“啪嗒啪嗒”声,腾讯天籁实验室人工智能训练师付聪一天的工作就此开始。 近几年,随着人工智能技术不断发展,这个被称为人工智能训练师的职业逐渐壮大。作为“数字职业”之一,人工智能训练师的出现,加速了人工智能由技术研发走向行业应用的过程,将产生较高的经济价值和社会价值。 为模型不断“喂”数据 每次出门时,付聪总会在耳朵上戴一个大“耳环”。 这个“耳环”其实是一个测试版的助听器。“耳环”里的声音各式各样,有呼呼的噪声,有尖锐刺耳的吵闹声……这些经过助听器放大后产生的噪声,是很多佩戴助听器的听障人士长期面临的困扰。 付聪和他的团队正在尝试利用算法设计、通过人工智能技术“训练”数据模型,让助听器更加“智慧”地降低噪声,让听障人群听得清、听得懂、听得舒服。 付聪解释说,助听器数据模型很小,因此需要针对不同场景进行优化,很多场景充满挑战,“比如一个听障人士在餐厅吃饭,周围有很多人说话,他想跟对面的人聊天,四周声音特别嘈杂,作为一个正常人都可能听不清楚,更何况一个有听力障碍的人?我们希望利用模型,把需要的声音提取出来,降低噪声,帮助更多听障人群”。 理想很丰满,但是实际的模型算法研发过程却像是一场反复进行的“战役”。 模型的研发过程大致分为以下几步:数据采集、数据“清洗”、模型训练、场景测试、调整算法,经过几次迭代之后再测试、调整,“如果测试结果不理想,需要把这个过程再走一遍,直到得到最优效果”。付聪说。 数据采集要有针对性。为了让模型更“聪明”,需要针对不同场景采集各种特殊数据。付聪和团队成员不仅需要到早晚高峰的地铁、热闹喧天的餐厅、人来人往的马路等场景,采集数百个小时的声音数据,还要戴上助听器体验这些声音的差别,“比如风声,正常人听到是呼呼声,但戴上助听器以后,是很吵的噗噗声,像是去KTV唱歌,声音使劲砸到麦克风上”。道路骑行、海边风浪……为了采集各种风噪数据,付聪录制了多种场景的风声。 数据“清洗”是将不需要的数据“洗掉”。付聪举了一个例子——风声,真实场景下会夹杂汽车鸣笛、人交谈等声音。在整理时要把这些数据剔除出来,保留一个比较纯粹的风声,这样模型才会“认识”风。 模型训练是将“清洗”好的数据“喂”给模型。除了采集的特殊数据,付聪和他的同事们还会加入诸如世界各国的语言和一些非语音声音等数据,“基本涵盖了人们生活中遇到的所有噪声和语音”。 和人类不同,人工智能模型在训练过程中,不会疲惫、烦躁、发脾气,它们的“智慧”取决于模型参数、训练策略、数据量等。“它们就像一个‘孩子’,会越来越‘聪明’,识别到越来越多的声音,我特别有成就感。”付聪说。 考验耐心、细致和忍受力 模型训练完成后,并不意味立刻能应用到听障人群的助听器上,还要经历较长时间的迭代、调整过程。 比如,为了让听障人群适配到合适的助听器,传统方式是患者反复到线下的验配店去试戴,过程繁杂。付聪解释说,一般情况下,根据发病原因不同可以将听力下降分为三类:感音神经性、传导性、混合性耳聋;根据听力下降的程度不同,分为轻度、中度、重度及极重度耳聋。针对不同的类型,助听器的适配方式有所不同。 有没有可能把适配过程搬到“线上”,利用人工智能算法和深度学习能力,让听障人群在线上就能做准确的听力验配?带着这个疑问,付聪开始研发适配算法。他将这个过程比喻为做应用题,需要查询国内外文献、检索现有方案,根据具体的使用环境,利用现有知识开展合理想象、设计实验、寻找答案。 这个过程考验人工智能训练师的耐心、细致。在测试助听器音质时,不同的佩戴方式,对应不同的测试结果。付聪和同事需要以“N×N”排列组合设计不同的佩戴方式,并且不断重复试验,来研究其对音质产生的影响。 这个过程十分考验人工智能训练师的忍受力。“一个人工智能训练师的基本素养,就是强迫自己听很多次刺耳的声音。”付聪表示,这是因为训练师需要定量衡量听障患者能正常听到的声音极限点,而这些声音的分贝数是正常人耳难以忍受的,“很多时候恨不得把耳机摔掉。经过一天测试,整个脑袋都感觉疼”。 经过不断迭代、调整,内置了算法的助听器终于完成了。最让付聪难忘的是他们第一次到广东韶关捐赠产品,他们把助听器挨个交到听障老人手上,开机、戴设备、调整增益……“虽然我对模型很有信心,但当时还是感觉心提到了嗓子眼,因为在此之前,老人们是无法正常交流的。”付聪说。 他小心地询问一个老人:“您能听到我在说什么吗?” “可以了。”老人缓慢而又坚定地从口中说出3个字。 “那时候我觉得,我们做的这个事情挺有意义的。”付聪说。 用技术解决人类需求 人工智能训练师是一个需要忍受孤独的职业,因为他们大量的时间是在设计方案、写代码、采集数据、训练模型中度过的。 “我战胜孤独的秘密是兴趣。”付聪的专业是通信,其中很多课程和信号处理相关,他平时比较喜欢音乐,因此就将自己的兴趣和专业、工作结合起来,聚焦音频领域,大学毕业后参与了很多有关音频信号处理的工作,经历了音频算法从传统算法到人工智能算法,再到大规模深度学习的各个阶段。 在付聪看来,人工智能技术是一个很好的工具,目的是将人类从很多脑力劳动中解放出来,用规模化的方式去替代目前成本较高的个体劳动。对整个社会而言,这是一种生产力的进步,有着巨大的社会价值和商业价值。 成熟的人工智能技术是什么样?付聪认为需要经过3个阶段:一是感知智能,核心在于模拟人的视觉、听觉和触觉等感知能力,比如人脸识别、语音识别等;二是认知智能,具有人类思维理解、知识共享、行动协同或博弈等特征,“能够真正理解人在说什么,根据一些提示,提供相对完整的回答”;三是行为智能,也就是像自动驾驶一样,真正可以在物理世界发挥作用。 达到这样的目标,需要对人工智能模型不断进行训练。付聪表示,首先需要针对问题准备足够多的数据,“多到尽量涵盖解决这个问题时所遇到的所有情形”;其次需要设计很好的算法,并根据用户反馈不断优化。 “人工智能技术领域日新月异,要求人工智能训练师有广阔的视野、深厚的人文情怀和社会责任感,用业界最新想法、理念和正确的伦理观来帮助人类解决生产生活中遇到的问题。”付聪说。(人民日报海外版) 栏目主编:秦红 文字编辑:程沛 题图来源:上观题图...
复旦大学MOSS大模型十年磨一剑 勇闯人工智能无人区
MOSS

复旦大学MOSS大模型十年磨一剑 勇闯人工智能无人区

复旦MOSS十年磨一剑。大模型时代,复旦大学正在闯出一条人工智能新路。ChatGPT的革命性体现在大模型的“涌现能力”上。2023年上半年,复旦MOSS、百度文心、阿里通义、华为盘古、讯飞星火、商汤日日新……国内外近千款大模型竞技角逐。这是一条“狂飙”的新赛道。2022年底,对话式大型语言模型Chat GPT火爆出圈,激起AI领域“千层浪”,也带动大模型这一重要的底层基座变得炙手可热。今年以来,国内“千模大战”趋于白热化。作为生成式人工智能的技术底座,大模型无疑是兵家必争之地。科技部中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,国内大模型的“出产地”集中在北京、上海、广东和浙江等省市,这4个地方也是近3年人工智能服务器采购数量最高的地区。 在复旦大学计算机学院教授、复旦MOSS系统负责人邱锡鹏看来,争夺大模型的技术底座话语权,意义重大。相比于国外技术实力,目前国内大模型还有一定差距,体现在语料清洗、工程、算法等方面,对自主研发的要求很高。再往生态圈延伸,国内大模型需要从头到底有一套自主研发的技术,适配国内的配套硬件,保障在任何环节不被卡脖子。邱锡鹏认为,在国内城市中,上海在前沿科技领域具有独特的优势,体现在人工智能企业数量多、能级高,从底层技术到大模型、算力,从系统设计到应用,全链条企业都有涉及,更容易从生态上做规划。就在近日,《上海市推动制造业高质量发展三年行动计划(2023-2025年)》出炉,其中对大模型、算力等多方面作出指引,提出“瞄准人工智能技术前沿,构建通用大模型,面向垂直领域发展产业生态,建设国际算法创新基地”。邱锡鹏认为,上海应发挥自身优势,在AI大模型领域走出有中国特色的创新路。邱锡鹏强调,过去5个月来,复旦MOSS系统日夜成长,不断迭代优化,比如:4月20日,第三轮迭代版本MOSS003大模型上线,成为国内首个插件增强的开源对话语言模型。“相比2月‘出生’时,如今的MOSS系统性能提升不少,主要表现在逻辑能力、无害性、有用性等方向。大模型靠大量语料来训练,一些能力已超越大部分成年人。“围绕大模型,我们做的不仅仅是模型本身,还有很多挑战要解决。”邱锡鹏举例说,其中一个就是普惠化,即将大模型巨大算力成本降下来,“过去优化一个百亿参数量级的大模型,需要数个A100芯片做硬件支撑,一台机器就要100多万元,并非普通研究机构承担得起。”5个月来,这也是邱锡鹏的主要研究方向之一。就在近期,他带领团队发布了低内存优化技术(LOMO),可将大模型训练内存使用量降低到之前的10.8%,新方法能够在一台消费级显卡的机器上,对650亿参数大模型进行全参数微调,大大降低了使用门槛。据了解,目前邱锡鹏所在的复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。当前,复旦MOSS研发团队成员主要来自复旦大学计算机科学技术学院的老师及研究人员。其中,黄萱菁教授作为自然语言处理实验室学术带头人,主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务;邱锡鹏教授研究方向为自然语言处理、深度学习,围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用等开展研究;张奇教授研究领域包括自然语言处理,信息检索,数据密集型计算;郑骁庆副教授研究领域包括自然语言理解,语义万维网,智能系统。团队成员在人工智能领域都有不同程度的研究成果。复旦MOSS十年磨一剑终获突破。MOSS项目自2009年起,到2021年止,走过十余年历程。项目围绕自然语言处理表示学习的四个层面(表示模型、学习机制、关键技术以及开源应用)开展研究。围绕这四个层面,项目在理论研究、技术创新以及开源应用上都做出了业界领先的研究成果,推动了自然语言处理通用表示学习的发展。2023年3月24日,复旦大学计算机学院邱锡鹏教授MOSS科研团队获钱伟长中文信息处理科学技术奖一等奖。钱伟长中文信息处理科学技术奖是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予该领域在基本方法或关键技术上有原始创新或重大突破,对推动我国中文信息处理事业或行业进步起到重要作用,创造出较大经济效益或社会效益的项目或个人。邱锡鹏教授团队等完成的“大自然语言表示学习及其开源应用”占有一席之地,MOSS项目的主要完成人为邱锡鹏、桂韬、张奇、颜航、黄萱菁。在成绩的背后,下一步,我们该如何复现ChatGPT这一大型语言模型?复旦MOSS还将面临哪些挑战?邱锡鹏认为,第一步需要先实现语言模型基座,第二步是指令微调,第三步是能力不断强化迭代。虽然这些关键步骤以及大概方法已经十分明朗,但每一步的细节都需要我们自己去一一摸索,还是充满着各种未知的挑战性;第一步主要是Transformer架构上进行模块优化。首先,对于ChatGPT来说,它并没有特别关注中文,很多时候只是直接把中文按照英文的方式进行编码,我们作为中国人自然是希望对中文进行优化,就需要重新实现更好的中文编码,并想办法把中文和英文打通;此外,将来如果接入多模态的话,编码问题同样会带来架构设计以及训练稳定性等诸多问题与麻烦;第二步是指令微调,个人认为指令微调的难度甚至比预训练更高。在预训练阶段,大家可以利用一些大公司成熟的预训练模型,在短时间内取得不错的训练效果;但是指令微调则非常难以立马做到,这一点上和OpenAI之间存在着非常明显的差距。在与人类对齐方面,想要让模型的回答尽可能符合我们人类的思维习惯,也很难做到。而且考虑到OpenAI暂不开源,我们只能够一步步慢慢向前探索。如果我们要想超过ChatGPT,肯定就得去找到一条比它更好的实现路径,而这个过程无疑充满艰险。同时,邱锡鹏表示,一段时间以来,开源社区对ChatGPT十分关注,涌现出很多优秀的开源数据和模型,但是已开源项目大多有以下局限:仅包含单轮指令数据、仅聚焦模型有用性、以英文为主、模型参数量较小(通常不足百亿)。与之相比,MOSS开源数据大多为多轮对话数据,涵盖模型有用性、忠实性、无害性,包含中英双语;开源模型包含160亿参数,具有更多的涌现能力和更强的知识性。MOSS还开源了插件增强对话模型,这种能力是目前国内独一无二的。未来,MOSS将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。对于未来,人工智能大模型将朝哪个方向发展?邱锡鹏认为:以前一直做的人工智能模型都是弱人工智能模型,比如AlphaGo只能下围棋。目前ChatGPT的表现类似于通才,但是它可能在细分的专业性上和行业中比较顶级的专家还有很大的差距。我认为它将来会有不同的分支,往不同的专业方向上发展,以大模型为基础,产生很多的分领域的不同模型。这对于之前的人工智能研究来说应该都是一个大的颠覆。对于未来,我是比较乐观的。我们的人工智能以场景的丰富度或者应用层面的创新性领先,在AIGC或者大模型浪潮中,应用驱动也是很重要的。有了大模型技术底座之后,我们再去把人工智能产品打磨好,未来的人工智能一定会为我所用,为民造福。领略复旦MOSS团队成员风采:邱锡鹏,教授,博士生导师,复旦大学计算机科学技术学院。于复旦大学获得理学学士和博士学位。研究方向为自然语言处理、深度学习,发表CCF-A/B类论文70余篇。主持开发了开源自然语言处理工具FudanNLP [GitHub] [Google Code]、FastNLP [GitHub] [Gitee],获得了学术界和产业界的广泛使用。研究方向:围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用,包括:自然语言表示学习、预训练模型、信息抽取、中文NLP、开源NLP系统、可信NLP技术、对话系统等。黄萱菁,复旦大学计算机科学技术学院教授,博士生导师,国家级领军人才,上海市优秀学术带头人,复旦大学自然语言处理实验室学术带头人。主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务。张奇,现任复旦大学计算机科学技术学院教授、博士生导师。1999年至2003年于山东大学计算机科学与技术学院读本科,2003年至2009年于复旦大学计算机科学技术学院硕博连读,2009年留校任教至今,2012年晋升副教授,2018年晋升教授。作为项目负责人承担了国家自然科学基金面上等项目。主编教材:《自然语言处理导论》(初稿)。 郑骁庆,现任复旦大学计算机科学技术学院副教授, 博士生导师。毕业于浙江大学计算机科学与技术学院,获博士学位,之后开始在复旦大学计算机科学技术学院任教。曾以国际师资研究员(International Faculty Fellow)的身份长期在美国麻省理工学院信息技术团队从事数据集成和语义技术方面的研究。 (注:本文由全国高校人工智能与大数据创新联盟独家整理,转载请注明出处。) 全国高校人工智能与大数据创新联盟 全国高校人工智能与大数据创新联盟(简称:高校联盟)是由清华大学、浙江大学、中南大学、东北大学、上海工程技术大学、重庆邮电大学、东北林业大学、佛山科学技术学院、曲阜师范大学、黑龙江大学、海豚大数据科技等全国54家高校、企业共同发起,于2018年5月26日在北京中国科技会堂正式成立。迄今为止,联盟发展会员300多家, 覆盖全国20多个省市。联盟由一批积极投身于“人工智能、大数据、区块链”教育事业的高校、科研机构、企事业单位和个人自愿组成的公益性、全国性学术交流服务平台。中国工程院原常务副院长、中国工程院院士潘云鹤、中国科学院院士陈国良、教育部政策法规司原司长孙霄兵担任联盟名誉理事长,中国工程院院士谭建荣担任联盟理事长。联盟工作接受工信部、国家网信办等政府部门行政管理和业务指导。联盟主要工作是推进产教融合、校企合作、协同育人。(加盟微信13651193492) 高校区块链专委会 全国高校人工智能与大数据创新联盟区块链专委会(简称:高校区块链专委会),是由北京大学、浙江大学、武汉大学、西南财经大学、北京交通大学、郑州大学、贵州大学、桂林电子科技大学、山西农业大学、佛山科学技术学院、陕西师范大学、中国网安、海豚大数据科技等全国40多家高校、企业和机构共同发起,于2019年12月7日在广东省佛山市正式成立。目前发展高校及企业会员70多家。中国工程院院士、浙江大学教授陈纯担任高校区块链专委会名誉顾问;北京航空航天大学数字社会与区块链实验室主任蔡维德教授、中国计算机学会区块链专委会主任斯雪明教授、中国人民银行数字货币研究所副所长狄刚担任高校区块链专委会名誉主任;北京大学信息科学技术学院区块链中心主任陈钟教授担任高校区块链专委会主任。高校区块链专委会主要工作是促进高校区块链教育,为高校区块链专业建设及学科发展提供专家咨询服务。 高校元宇宙专委会 全国高校人工智能与大数据创新联盟元宇宙专业委员会(简称:高校元宇宙专委会),是由清华大学、湖南大学、浙江大学、四川大学、汕头大学、河北金融学院、保定市元宇宙协会、英伟达中国、海尔衣联网研究院、海豚大数据科技(天津)有限公司等全国20多所高校、企业和机构共同发起,于2022年11月5日在北京正式成立。中国工程院院士、计算机软件与虚拟现实领域专家赵沁平担任高校元宇宙专委会名誉顾问;中国工程院院士、北京航空航天大学电气与自动化学院名誉院长、中国航天科工集团有限公司科技委高级顾问李伯虎担任高校元宇宙专委会名誉主任;清华大学信息国研中心可信软件和大数据部常务副主任邢春晓担任高校元宇宙专委会主任委员。目前已发展高校及企业会员30多家。高校元宇宙专委会主要工作是促进高校元宇宙教育、加强校企合作、推动元宇宙专业建设及学科发展,为元宇宙教育教学提供专家咨询服务。 高校新商科专委会 全国高校人工智能与大数据创新联盟新商科专委会(简称:高校新商科专委会),是由中央财经大学、中国人民大学、中国石油大学、北京师范大学、北京化工大学、北京石油化工学院、北京工商大学、北京语言大学、华北水利水电大学、广西科技大学、河北金融学院、天津财经大学、北京物资学院、西藏民族大学、北京信息职业技术学院、北京联合大学、北京经贸职业学院、北京财贸职业学院、海豚大数据科技等全国20多家高校、企业和机构共同发起,于2019年6月28日在北京中国科技会堂正式成立。目前发展高校及企业会员100多家。高校新商科专委会主要工作是促进高校新商科教育、推动高校新商科专业建设及学科发展,为新商科教育提供专家咨询服务。 版权声明:转载文章和图片均来自公开网络,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜 联盟“资料图书馆” 左右滑动查看更多 微信咨询
符尧:复旦团队开源大模型 MOSS 有哪些技术亮点值得关注
MOSS

符尧:复旦团队开源大模型 MOSS 有哪些技术亮点值得关注

导读 本文已获知乎作者Franx符尧的发布授权,原文标题为《复旦团队大模型 MOSS 开源了,有哪些技术亮点值得关注?》,如需转载请与原作者联系。 本文对MOSS目前的优点、局限性以及MOSS常见问题的第三方解答做出了分析,并说明了作者的个人观点。 原文链接: https://www.zhihu.com/question/596908242/answer/2996276211 01 Part 1 先说结论:MOSS 这个模型,是全球(全球,不只是中文)开源界做得最前沿,最彻底,最完备的模型,远远领先基于 LLaMA 做 SFT 的一众模型(如 Alpaca)。MOSS 的意义,是它跑通了除 scaling之外的几乎全部大模型开发的 pipeline: multi-lingual continue training, data engineering, supervised finetuning, RLHF, tool using, and safety,完成了一个真正意义上的可行性验证。 02 Part 2 然后讲为什么 MOSS 好:1、跑通除了 scaling 之外的 pipeline大模型的开发是一个非常复杂的流程,主要分为 scaling 和 alignment。scaling 的目标是建立一个强大的基础模型(比如 Google 540B...
复旦大学 MOSS 大模型正式开源:超 100 万条对话训练数据
MOSS

复旦大学 MOSS 大模型正式开源:超 100 万条对话训练数据

4 月 21 日,复旦大学自然语言处理实验室开发的新版 MOSS 模型正式上线,成为国内首个插件增强的开源对话语言模型。 据介绍,MOSS 是一个支持中英双语和多种插件的开源对话语言模型,moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100 / A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 目前,MOSS 模型已上线开源,相关代码、数据、模型参数已在 Github 和 Hugging Face 等平台开放,供科研人员下载。 MOSS 来自复旦大学自然语言处理实验室的邱锡鹏教授团队,名字与《流浪地球》电影中的 AI 同名,已发布至公开平台(https://moss.fastnlp.top/),邀请公众参与内测。(来源:IT 之家)
AI中考同题作文|复旦MOSS大模型写中考作文,你觉得它水平如何?
MOSS

AI中考同题作文|复旦MOSS大模型写中考作文,你觉得它水平如何?

原标题:AI中考同题作文|复旦MOSS大模型写中考作文,你觉得它水平如何? 【编者按】 6月17日,2023上海中考开考。在考生家庭内外,这次以“会心之乐”为题的600字作文,再度引发公众兴趣。作文题,难不难;换成你,怎么写? 这个人工智能(AI)方兴未艾的年代,关于升学考试作文的议题,或许可以换个机器的视角。解放日报·上观新闻请了国内主要生成式预训练大模型,让多个AI平台“执笔”同题作文,并邀各路相关专家点评,看看这些机器人在“模拟考”中如何理解自然语言,文笔功夫有没有给人类意外的惊喜?到底写得咋样,不妨互学互鉴。 今天上午,2023年上海中考语文作文题亮相,题目为“会心之乐”。人工智能大语言模型能否准确审题?写作水平如何?解放日报·上观新闻记者将题目输入复旦大学科研团队研发的MOSS大模型,它很快根据要求生成了一篇文章。中学语文高级教师认为它总体上写得不错,但缺乏真情实感,也缺少证明论点的事实论据。你觉得呢? 会心之乐(复旦MOSS版) 人生中有很多种快乐,其中一种最为特别的快乐就是会心之乐。会心之乐是一种心灵的愉悦,是一种深刻的共鸣,是一种难以言喻的感受。当我们在与别人交流时,突然发现对方说出了我们一直想说的话,或者在做某件事情时,突然发现自己的想法与别人的想法不谋而合,这时候我们就会体验到一种非常愉悦的感觉,这就是会心之乐。 会心之乐并不是一种简单的快乐,它需要我们有一定的思考和领悟能力。只有当我们在学习和生活中积累了一定的经验和知识,才能够更好地领悟到别人的意思,也能够更好地表达自己的想法。因此,会心之乐是一种需要不断学习和积累才能获得的快乐。 会心之乐也是一种深刻的共鸣。当我们与他人分享自己的经历和感受时,如果对方能够理解我们的内心世界,并且给予我们支持和鼓励,那么我们就会感到一种被理解和认同的快乐。这种快乐不仅仅是因为我们得到了别人的支持和鼓励,更重要的是因为我们找到了一个与自己心灵相通的人。 最后,会心之乐也是一种情意相合的感受。当我们与亲密的人在一起时,我们可以不用言语,就能够感受到对方的情感和想法。这种默契和情感上的连接,让我们感到一种无法言喻的快乐。这种快乐不仅让我们感到幸福和满足,更让我们感到生命的意义和价值。 总之,会心之乐是一种非常特别的快乐,它需要我们有一定的思考和领悟能力,需要我们不断学习和积累,需要我们与他人建立深刻的共鸣和情感上的连接。当我们体验到会心之乐时,我们会感到一种无法言喻的幸福和满足,这种快乐将成为我们生命中最为珍贵的回忆。 【专家点评】 陶璐(市南中学语文高级教师) 看了这篇作文,我觉得MOSS总体上写得不错: 一是审题比较到位,基本理解了“会心之乐”的内涵,并且用富有文采的语句表达了出来:“会心之乐是一种心灵的愉悦,是一种深刻的共鸣,是一种难以言喻的感受。” 二是论述有条理,文章采用并列论述结构,提出了三个分论点:会心之乐需要我们有一定的思考和领悟能力,是一种深刻的共鸣,也是一种情意相合的感受。 三是结尾点题,进一步阐述了中心思想:“当我们体验到会心之乐时,我们会感到一种无法言喻的幸福和满足,这种快乐将成为我们生命中最为珍贵的回忆。” 不过,按照中考作文的评分标准,MOSS写的文章估计得不到高分。中考作文通常是以叙述为主、夹叙夹议的文章,要体现作者的真情实感,叙述要生动,可运用语言描写、神态描写、心理描写等写作手法,还可运用比喻等修辞手法。 按照这个标准,MOSS显然没有完全达标。它写的是议论文,基本没有生动的叙述,缺少佐证论点的鲜活论据,更没有在行文中表达出自己的真情实感。 这种缺陷是可以理解的,毕竟MOSS是机器而不是人,缺少人的情感和生活经历。生活是作文的源泉,AI大模型没有生活世界,也没有自我意识,它怎么能真正理解“会心之乐”呢?返回搜狐,查看更多 责任编辑:
【热点】复旦MOSS“备战”高考,这场大考或成大模型“赛马场”
MOSS

【热点】复旦MOSS“备战”高考,这场大考或成大模型“赛马场”

高考鸣枪在即,今年参加考试的除了高三学子,可能还有各种大模型。近日,由上海国创科技产业创新发展中心举行的长三角科技产业创新论坛暨AI大模型产业应用高峰论坛上,复旦大学计算机科学技术学院教授邱锡鹏透露,他们计划让国内首个对外发布的对话式大型语言模型MOSS“参加”高考,以测试它的分析和推理能力。 由ChatGPT引爆的AI大模型,正成为全球科技巨头竞相角逐的新战场。今年上半年,国内已有百度、华为、阿里、腾讯、360、商汤、科大讯飞等30多家企业推出了各自的大模型。“百模大战”面临哪些机遇和挑战?与会专家表示,大模型是未来人机交互操作系统底座,充分竞争非常必要,不过也需要错位发展——有人做基座,有人做生态,才能共同进步,由此推动大模型产业健康发展。 01 国产大模型与GPT-4尚有“代差” 今年2月,复旦大学自然语言处理实验室发布国内首个类ChatGPT模型MOSS,那时的MOSS模型有近200亿参数,大约是ChatGPT规模的十分之一。四个月过去了,MOSS有了哪些进步?邱锡鹏介绍,今年4月,团队又发布了国内首个具有插件版能力的大模型。近期,以“火星”命名的千亿级模型参数的更新版MOSS模型即将上线,他们希望更新版MOSS能在今年的高考上“试试身手”。 事实上,他们已经让ChatGPT做了去年的全国高考题,经过专业严格的打分统计,得分大约在400分上下。对于今年MOSS能拿多少分,邱锡鹏没有给出预测。他表示:“作为聊天软件,国产大模型与ChatGPT差别不太大,但作为生产力工具,两者能力之间尚有代差。” 中国人工智能学会副理事长、北京大学教授刘宏补充说明了聊天软件与生产力工具的区别:聊天软件能用就行,就算出错也无伤大雅,比如此前的小i、小冰也能胜任聊天功能,但作为工具,就要确保不能出错。他认为,目前大模型学习深度还不够,缺乏与外部知识库的交互和调用,有待与工具软件更好地嵌入、融合,专业检索能力和数据安全保障有待进一步提升。 不过,这些不足丝毫不影响刘宏对大模型的热切期许。在他看来,大模型是物质、能量、信息融于一体的三元工具,是有史以来人类发明的最厉害的工具。类似从短信到微信的聊天革命,AI大模型正快速从“玩具”向“工具”演变。 邱锡鹏认为,目前最重要的一件事是让机器对齐人类价值观,这也是这四个月来团队所做的最重要的一项工作。如何对齐?邱锡鹏解释说,就是让一些人类反馈给模型输出的答案打分,对于模型产生的符合人类价值观的答案,不断给予正向鼓励。 02 元宇宙“失宠”? 大模型将加速元宇宙到来 短短半年,ChatGPT的爆火似乎让“红极一时”的元宇宙处境有些尴尬,有人认为元宇宙只是昙花一现。中国人工智能学会名誉副理事长、日本工程院院士、电子科技大学讲席教授任福继坦言,2021年爆火的元宇宙是个“早产儿”,是“已来的未来”,大模型的出现不会导致元宇宙的衰落,反而会加速其到来。 在任福继看来,大模型的涌现能力正在催化元宇宙。比如,在已经开始应用的虚拟主播、AI带货等领域,数字人技术融入大模型的多步推理、指令执行等功能后,直接与用户对话的虚拟人将变得更像人。据清华大学发布的《元宇宙发展研究报告3.0版》,2021年,虚拟数字人核心产业规模约为336亿元,年均增长率为31%。对此,任福继表示:“近年来的虚拟数字人发展比我们预料的还要快很多。” 他还畅想了大模型和元宇宙融合后的终极形态——超世界,即虚实交融的虚拟世界。“现实世界拥有时间、空间、人间三个变量,而在超世界中,时间可以有正有负,空间可以有实有虚。”任福继举例说,在未来充满交融共生的生活场景中,当独居老人突发疾病,千里之外的医生可第一时间将药方发给大模型,大模型赋能的居家机器人接收药物后及时给老人服下,在这里,空间从虚到实。同样的,你也可以和逝去的名人面对面对话,在这里,时间由负到正。 作为情感计算领域全球典型学者,任福继认为,过去30年,人工智能在逻辑推理方面取得了长足进步。未来30年,人工智能还将在脑智、心智等方面更进一步。 来源:文汇网 往期回顾 收藏!近期最新科创政策集锦来了 上海科创中心重大项目建设进展(上海美的全球创新园区项目) 太上头!上海科创中心建设版网络热曲“挖呀挖呀挖”,亮点密集,一起来看→
新闻 | 走进大型语言模型MOSS:它和ChatGPT有何不同?
MOSS

新闻 | 走进大型语言模型MOSS:它和ChatGPT有何不同?

2023年2月,复旦大学计算机科学技术学院自然语言处理实验室邱锡鹏教授团队发布了国内首个类ChatGPT的模型MOSS。目前,MOSS模型已经开源,能让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品。 5月27日下午14:00,复旦大学计算机科学技术学院的“走进大型语言模型MOSS”讲座在邯郸校区逸夫楼开讲,本场活动由上海复旦大学校友会IT同学会共同支持。复旦大学计算机科学技术学院博士生刘向阳以“如何打造对话式语言模型”为题,给校友们科普MOSS的相关知识。现场参加的校友中既有理科生,也有文科生,更有校友携来了“复二代”。 刘向阳也是邱锡鹏老师带领下的复旦MOSS大语言模型的主要开发者。他围绕“语言模型是什么”“预训练语言模型的发展”“大型语言模型的基础能力”“如何让语言模型学会对话”“MOSS开发历程”“通用人工智能遐想”这六大主题,由浅入深地介绍了大型语言模型的四大能力、HHH准则、模型训练技术和路径等校友们关心的内容。 他还详细介绍了MOSS的开发历程,对比了它与ChatGPT的不同,并展望了未来改进优化的方向。 MOSS的名字也引发了广大校友的兴趣。刘向阳告诉大家:“MOSS最初名为OpenChat-001,后来电影《流浪地球》的上映受到了包括课题组成员在内的广大中国观众的喜欢,课题组也就抢先注册了《流浪地球》中AI的名字‘MOSS’来为自己的大型语言模型命名。之后MOSS的两个子模型,也是在《流浪地球》的背景下,根据训练所需数据的数量级与对应天体质量的吻合程度,被分别命名为‘MOON’和‘MARS’。” 在之后的互动提问环节,来自法律、金融投资、计算机等领域的校友们跃跃欲试,纷纷就大语言模型的复制和私有化部署、人工智能的人格、训练垂直领域的大语言模型、人工智能是否会改变人的思维等话题与刘向阳展开热烈讨论。 互动之后,内测版本MOSS试用福利将整场讲座推向高潮。不仅校友们纷纷举手,通过提问感受MOSS在信息搜索、语义理解、计算机编程等方面的性能,更有很多“复二代”小朋友参与其中,亲身感受前沿科技的力量。 文章来源:复旦大学校友会微信公众号
MOSS系统负责人邱锡鹏:接下来复旦会有计划地推出算力更大、推理能力更强的MOSS模型
MOSS

MOSS系统负责人邱锡鹏:接下来复旦会有计划地推出算力更大、推理能力更强的MOSS模型

品玩6月1日讯,据上证报报道,复旦大学MOSS系统负责人邱锡鹏表示,“截至目前,MOSS后台已收到几百家企业的使用申请,其中多以中小企业为主,覆盖传统行业,智能信息服务、金融、医疗、教育等。目前MOSS模型的主要功能集中于帮助企业将大模型以更低成本应用到具体领域当中。”邱锡鹏透露,接下来复旦会有计划地推出算力更大、推理能力更强的MOSS模型。
服务器被挤崩 复旦MOSS回应:模型还非常不成熟 只是想内测
MOSS

服务器被挤崩 复旦MOSS回应:模型还非常不成熟 只是想内测

【TechWeb】2月21日消息,昨日,复旦团队发布国内首个类ChatGPT模型MOSS,引发网友关注。由于瞬时访问压力过大,MOSS服务器当晚被挤崩。 今日,MOSS官网发布公告回应称,MOSS还是一个非常不成熟的模型,距离ChatGPT还有很长的路需要走。我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。 复旦团队表示,“我们最初的想法只是想将MOSS进行内测,以便我们可以进一步优化,没有想到会引起这么大的关注,我们的计算资源不足以支持如此大的访问量,并且作为学术团队我们也没有相关的工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的意。” 声明中透露,在MOSS完成初步的验证之后,复旦团队会将MOSS的经验、代码、模型参数开源。 此外,公告还解释了MOSS名称源于《流浪地球》,“我们在训练完成第一代模型的时候,正值流浪地球2热映,片中MOSS给团队每个人都留下了深刻的印象,因此便使用了这样一个名称来指代我们的模型,以表示我们对最前沿AI模型的不懈追求。”
复旦MOSS内测,服务器被挤崩!与ChatGPT差距较大
MOSS

复旦MOSS内测,服务器被挤崩!与ChatGPT差距较大

原标题:复旦MOSS内测,服务器被挤崩!与ChatGPT差距较大 2月20日晚,复旦大学自然语言处理实验室的邱锡鹏教授团队发布了国内首个类ChatGPT模型MOSS,该名字与《流浪地球》系列电影中的人工智能550W量子计算机MOSS同名。 南都记者了解获悉,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。目前,MOSS已由邱锡鹏教授团队发布至公开平台,邀请公众参与内测。 南都实测:实行邀请码机制注册 南都记者实测发现,目前,MOSS账号的注册实行邀请码机制,或者填写内测申请等待对方将邀请码发送到邮箱后,才能参与内测。目前内测申请的渠道较为拥挤,网页长时间显示加载中。有网友表示,由于瞬时访问压力过大,MOSS服务器昨晚被网友挤崩了。 对此,邱锡鹏教授团队在公开平台发布公告回应称,“最初的想法只是想将MOSS进行内测,以便我们可以进一步优化,没有想到会引起这么大的关注”,“我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。” 国盛证券此前对GPT技术的训练成本进行的估算显示,GPT-3 训练一次的成本约为 140 万美元,对于一些更大的 LLM(大型语言模型),训练成本介于 200 万美元至 1200 万美元之间。以 ChatGPT 在 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多片英伟达 A100 GPU,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。要维持这些服务器和网络的总成本支出超过 1000 亿美元。 日前,在南都举办的关于ChatGPT的沙龙上,专家表示,开发大模型中国企业面临一场硬仗,需要国内的企业形成合力,“这里面需要天才的介入,也需要像阿里、百度这样的大企业来发动,将智慧汇聚在一起,形成我们自己的布局和战略。” MOSS的短板:中文水平不够高 邱锡鹏教授团队同时解释了产品取名“MOSS”的原因——“我们在训练完成第一代模型的时候,正值《流浪地球2》热映,片中MOSS给团队每个人都留下了深刻的印象,因此便使用了这样一个名称来指代我们的模型,以表示我们对最前沿AI模型的不懈追求。” 邱锡鹏教授团队透露,在MOSS完成初步的验证之后,会将MOSS的经验、代码、模型参数开源出来供大家参考。 邱锡鹏本人表示:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类ChatGPT产品的路上,国内科研团队有能力克服技术上的重要挑战。” 据了解,MOSS开发的基本步骤与ChatGPT一样,包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。但MOSS与ChatGPT的差距主要在自然语言模型基座预训练这个阶段。“MOSS的参数量比ChatGPT小一个数量级,在任务完成度和知识储备量上,还有很大提升空间。”邱锡鹏坦言。 此外,MOSS的最大短板是中文水平不够高。“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。为解决这一问题,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。 “MOSS”火出圈:商标注册跟风涌现 提到MOSS,很容易让人联想到《流浪地球2》中的那句台词。“550W听起来不像是名字,但把它反过来,叫MOSS,直译为小苔藓,是不是感觉亲切了一些。”MOSS平静的语调和闪烁的红色灯光,穿插在故事主线中,给观众留下了深刻的印象。 据统计,春节档电影《流浪地球2》累计票房已超过38亿元。在该片票房加持下,郭帆也成为中国影史上第七位“百亿票房导演”。 在这种影响力下,MOSS也成了香饽饽。天眼查App显示,“MOSS”商标已被多方注册为商标,申请人包括科技公司、电商公司、传媒公司以及自然人许某某、谭某某等,国际分类包括科学仪器、灯具空调、运输贮藏等。 “MOSS”商标相关的知识产权情况。来源:天眼查 最近的一枚“MOSS”商标是某科技公司申请于2023年1月,国际分类为手工器械,目前商标状态为申请中。 值得一提的是,复旦复华(600624.SH)今日(2月21日)开盘涨停,截至记者发稿,仍处于涨停板状态,股价报6.78元。尽管公司方面已回应称,MOSS为复旦大学研发,与本公司无关。目前复旦复华的主营业务为生物医药、软件和园区三大板块,未参与MOSS研发。 采写:南都记者...