顶着压力,百度发布文心一言,邀请测试开启
文心一言

顶着压力,百度发布文心一言,邀请测试开启

机器之心报道 编辑:泽南、蛋酱 发布会撞车又如何,百度也拿出了多模态。 在业内人们的认知中,能造出国产 ChatGPT 的公司里,百度排名前列,然而文心一言发布前夕,OpenAI 率先发布了功能更为强大的多模态大模型 GPT-4,巨大的压力给到了百度这一边。这一次,文心能否回应人们的期待? 距离 GPT-4 发布仅 37 个小时后,答案就被揭晓了: ‍ 3 月 16 日下午,百度正式发布了知识增强大语言模型「文心一言」。 「这段时间不断有人问我:你们为什么现在发布,你们是不是真的 ready 了?」百度创始人、董事长兼首席执行官李彦宏说道。「其实自 2019 年起,每年文心大模型都要发布一个新的版本。文心一言的发布是我们过去多年努力的自然延续。」 文心一言当然是要对标 ChatGPT,甚至 GPT-4。李彦宏表示,在全球大厂中,这样的产品百度是第一个发布的。 既然文心一言正式登场了,那肯定要上手试试。在现场,百度展示了文心一言在文学创作、商业文案、数理逻辑、中文理解和多模态生成方面的能力。 续写《三体》,文字生成视频 今天下午,李彦宏总共展示了五个案例,介绍文心一言的能力: 首先来体验一下文学创作。关于知名科幻小说《三体》,李彦宏和文心一言进行了一番对话: ‍ 具体来说,「总结三体的核心内容」体现了文心一言的总结与分析能力,而续写《三体》体现了内容创作生成能力,再到「于和伟和张鲁一有哪些共同点」、「于和伟和张鲁一谁更高」这类问题背后,体现的则是文心一言的推理能力 —— 它需要先知道两人的准确身高,才能得出正确答案。 接下来,李彦宏还展示了文心一言的商业文案创作水平,包括给一家科技公司起名字、写 slogan、写新闻稿。 AI 要写好一篇稿子,除了需要准确理解我们的意图,还要有清晰的表达能力。 「对于语言大模型来说,这背后需要庞大的数据规模作为基础。人类常说『读万卷书』,而 AI 是『读书破千亿卷』。文心一言大模型的训练数据就包括万亿级网页数据,数十亿的搜索数据和图片数据,百亿级的语音日均调用数据,以及 5500 亿事实的知识图谱等,这让百度在中文语言的处理上,能够处于独一无二的位置,」李彦宏说道。 越来越多的研究和实践表明,大模型在参数体量达到某个量级时,就可能发生「智能涌现」,即使在没有专门训练过的领域,也能涌现出知识理解和逻辑推理能力。 我们无法将所有能力一一教给 AI,但通过大量数据的训练、数十亿的搜索请求,大量图片和知识图谱中的事实,在不断的训练过程中,文心一言拥有了通用化的能力。不知道文心一言目前的参数达到了多少。...
文心一言来了!李彦宏:百度是全球大厂中第一个做出来的!
文心一言

文心一言来了!李彦宏:百度是全球大厂中第一个做出来的!

整理 | 郑丽媛 屠敏出品 | CSDN(ID:CSDNnews) 对于昨日 GPT-4 的意外发布,相信多数人都有如下想法: 1、多模态大模型 GPT-4 真的很强大! 2、恰好赶在了文心一言发布前夕,百度要如何应对压力? 蓄势了一个多月,承载着无数人或期盼或好奇的目光,“国产版 ChatGPT”「文心一言」今天终于正式亮相! “「文心一言」并不完美,大家想要将其对标 ChatGPT,甚至是 GPT-4,但放眼全球大厂,百度是第一个做出来并真正发布出来的”,李彦宏说道。 “十月怀胎,一朝分娩”,那么接下来,就让我们开始这场万众期待的震撼发布,共同揭开「文心一言」的神秘面纱。 百度在大厂中第一个做出来的「文心一言」,实力几何? 在发布会伊始,对于外界频频问及的“为什么现在发布,百度是否真的做好了准备”等疑问,百度 CEO 李彦宏在开场进行了回应: “过去多年,百度一直在进行 AI 技术的研究与研发。文心大模型首个版本在 2019 年便已发布,文心一言只是过去多年研发成果的延续。之所以现在发布,是因为现在市场有强烈的需求,包括百度从搜索、智能云到自动驾驶,再到客户、用户,都需要这样的技术。同时,大模型只有发布了,才会有用户反馈,只有通过不断地反馈,才能加速模型自身的迭代。” 紧接着,李彦宏就带着 5 个 Demo “炸场”,让大众一饱眼福。 (1)多模态生成 如果说昨日 GPT-4 带着多模态出现,用一张草图生成一个网站,让众多程序员感到惊艳,那么今天的「文心一言」在覆盖多种模态方面做得更为全面,可用文字生成图片、音频(方言)、视频等多个维度。 关闭 观看更多 更多 正在加载 正在加载 退出全屏 视频加载失败,请刷新页面再试 刷新 视频详情 不过目前,由于生成视频的成本比较高,百度尚未对所有用户开放,未来会逐步接入。...
文心一言能带百度起飞吗?
文心一言

文心一言能带百度起飞吗?

出品|虎嗅科技组 作者|齐健编辑|陈伊凡 头图|视觉中国 2022年2月22日,百度发布了截至2022年12月31日四季度及全年未经审计财报。 2022年百度核心收入为954亿元,与去年基本持平;在线营销收入为695亿元,同比下降 6%。云业务、自动驾驶等非在线营销收入为259亿元,同比增长22%。 百度近两年营收及增长情况 本期财报发布后的首个交易日,百度低开136.4港元,随后迅速攀升,盘中最大涨幅达1.42% 除了财报,最令人关注的莫过于AI大模型,大家在乎的是,文心一言到底怎么样了? “我们计划首先将文心一言嵌入百度搜索。我们相信,这将重塑信息的生成和呈现方式,有机会形成新的流量入口,帮助我们吸引更多的用户,并获得市场份额。”百度创始人、董事长兼首席执行官李彦宏在百度2022Q4暨全年财报电话会上表示,百度在AI方面的优势,将全面拉动业务增长。 在众多中国公司中,百度确实是从数据、资金和技术上最有实力研发大模型的公司之一。虽然很难从目前百度透露的信息中看出文心一言的能力到底如何,但从财报电话会中提到文心一言的次数可以看出百度对这款产品的重视,以及对大模型这个业务方向的坚定态度。 李彦宏在财报发布前的内部信中提到了文心一言的三个主要方向。首先是通过百度智能云对外提供服务;其次是文心一言大模型将搭载到Apollo智舱系列产品,使智能汽车具备领先的人车交互体验;最后是与小度的深度集成。 如今,且不论要实现这三个方向落地的挑战和前景如何?而摆在百度面前最为关键的问题是,大模型的商业化问题,以及有大模型加持的百度业务,能否迎来一个飞跃? 文心一言的商业化 大模型的商业化如何落地,一直是业界关注的问题。 OpenAI的早期模型GPT-2选择了开源,并由此不断迭代,优化模型能力,自GPT-3开始,提供了API的商业化服务,不过一直以来,OpenAI业务并不是很赚钱,一方面是因为大模型训练、迭代的技术成本很高,另一方面算力开支也非常巨大。直到现在,ChatGPT推出了会员订阅的付费模式,仍不能保证收费可以覆盖全部的回答成本。 不过,ChatGPT确实把OpenAI的大模型能力推到了更多的行业用户中,由此吸引来的API用户,以及基于Azure OpenAI的云服务,或许可以给OpenAI和微软找到新的增长点。 而对于百度来说,在学习OpenAI和微软商业模式的同时,中文或许是打出差异化的核心。 据百度消息,自文心一言确定推出以来,已有超400家企业宣布加入文心一言生态圈。 不过从目前来看,无论是400家,还是4000家,宣称接入文心一言都还只停留在一张公告,无法获悉这些企业和百度有没有进行过具体业务需求的对接讨论,毕竟文心一言还没发布,这款产品到底有多强大,谁也不知道,更不用说它是否能真的落地到企业的具体业务场景中了。 在尚不能确定文心一言能力的情况下,这400多家企业如何与百度具体沟通业务需求,技术细节也并不重要。主动宣称将接入文心一言的合作伙伴,更多地是希望表明一种拥抱AI,以最先进生产力赋能技术的态度。就像刚刚宣布2023年将全面拥抱ChatGPT就股价暴涨的BuzzFeed一样,先进的态度更受市场欢迎。 从目前来看,百度或许真的是中文互联网大模型能力最强的IT大厂,也确实很有可能首发类ChatGPT产品,但在通用大模型的研发和商业探索方面,还有很长的路要走。毕竟连ChatGPT也只是试验性地完成了与Bing的整合,尚未宣布非常明确赚钱的商业模式。 一位AI业内人士告诉虎嗅:“目前看,大模型肯定是未来AI的发展方向,但是大模型如何落地,商业价值怎样,保守估计还要5-8年的时间来检验。” 不过,李彦宏对此颇有信心,他在内部信中指出,“AI技术已经发展到一个临界点,各行各业都不可避免地被改变。中国AI市场即将迎来爆发性的需求增长,其商业价值的释放将是前所未有的、指数级的。” 相比ChatGPT来说,文心一言对中国用户有两个天然的优势。首先是合规性,一方面OpenAI目前对国内用户没有官方接口,另一方面ChatGPT的很多答案并不适合国内用户,因为它的训练数据多是以欧美国家的意识形态为准则的,在一些答案中可能会出现排华、反华倾向。 另外一点就是对中文的理解和训练。ChatGPT是基于GPT模型训练的LLM(Large Language Model,大型语言模型),而文心大模型则采用更适合中文的模型,以及适合中文的数据进行训练。李彦宏认为,百度掌握海量的中文数据,对中文、中国文化的理解更加深刻,而这正是百度研发LLM的重要优势之一。 大模型能带动云业务成长吗 百度智能云2022全年总营收177亿,李彦宏认为,“之前选择云厂商更多看算力、存储等基础云服务。未来更多会看框架、模型,以及模型、框架、芯片、应用之间的协同。这会根本性地改变云计算市场的游戏规则。”近年来,百度不断优化业务线,在智能云业务条线上,持续缩减低利润业务。 对IaaS(Infrastructure as a Service,基础设施即服务)和云解决方案中不太赚钱的业务进行大刀阔斧的改革。虽然百度智能云在国内云业务市场中的份额并不突出,不过在云市场竞争中,头部玩家覆盖更多的还是传统互联网服务业务以及游戏娱乐等业务,而百度智能云在这方面,则集中AI力量,服务B端的细化需求,抢夺一些头部玩家没有覆盖的SaaS(Software as a Service,软件即服务)和PaaS(Platform as a Service,平台即服务)领域。 百度提出,智能云提供四层人工智能全栈能力,从云基础设施到包含深度学习开源框架的深度学习平台,再到大模型和最终应用,帮助企业主和创业者在云上构建自己的模型和应用。这方面百度与微软的Azure OpenAI有很多相似之处,甚至两家的云都称为“智能云”。 不同的是 ,这部分业务对于微软来说是一个已经跑通的业务。 Azure...
文心一言,走出“改变未来”第一步
文心一言

文心一言,走出“改变未来”第一步

作者|一橙出品|网易科技《态℃》栏目从宣布ALLIN大语言模型,到推出“文心一言”,百度没有让大家等很久。3月16日14时,百度在北京总部召开新闻发布会,正式启动基于百度新一代大语言模型的生成式AI 产品文心一言的邀请测试。从现场演示来看,文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。“全球大厂中百度是第一个发布的”,李彦宏坦承,这段时间不断有人问他为什么现在发布文心一言,百度是否真的ready?“从我自己在内测过程中体验到的文心一言的能力来说,(当前)确实不能叫作‘完美’”。李彦宏表示,这个时间点发布是因为有市场需求,百度的各个产品线都在等待这样的技术,客户也在等待,因而需要尽早推出。“这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。”改变的本质,是通过行动摆脱原有的束缚,去开发更多的可能性,逼迫自己走出舒适区。百度和文心一言,迈出了“改变未来”的第一步。“文心一言,未来将越来越强大”当下,全世界互联网都刮起了一阵ChatGPT风,其中钻研AI能力十年的百度,以及其推出的大语言模型“文心一言”,被市场寄予最大厚望。目前来看,“文心一言”的基础能力还算扎实,作为国内完全自研的语言大模型,在自然语言处理、中文理解、文本生成和人机对话上有着相对成熟的表现。首先,文心一言具备文学创作能力,可以进行总结、分析、内容、检索,延伸至检索增强。值得注意的是,文心一言在许多专业测试中表现出“人类水平的性能”,甚至发生“智能涌现”,涌现出了知识和逻辑推理能力。发布会上,百度展示了文心一言的创意文本能力,大模型目前已经能够完成“起名字”、“写新闻稿”、“写标语”、“生成歌词”等操作。尤其是对于中文的理解,在内测过程中《态℃》栏目发现,文心一言正确解释了网络流行语“躺平”的含义,还能够劝诫年轻人,“应该注意不要将躺平视为逃避显示或自我解放的方式,而是应该积极面对生活,寻找解决问题的方法。”同时百度还公布了文心一言的邀请测试方案。3月16日起,首批用户可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。此外,百度智能云即将面向企业客户开放文心一言API接口调用服务。3月16日起正式开放预约,搜索“百度智能云”进入官网,可申请加入文心一言云服务测试。百度打的是目标明确的仗,因为用户对于大语言模型的需求始终是清晰确定的,多模态一定是生成式AI一个明确的发展趋势。据百度介绍,文心一言的视频生成能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。李彦宏也表示,“未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。”对标ChatGPT,文心一言目前确实还存在着差距,但后发也有可能先制。百度作为国内AIGC的先行者,对比同类企业中已经占据了先发优势。百度首席技术官王海峰表示,文心一言,是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中也已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。李彦宏强调:“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。” 高强度的研发投入壁垒百度之所以敢于以身证道、勇于下注,正因深耕AI 10年坚持全栈部署,累计研发投入超过1000亿元,是全球大厂中极少数具有能支撑训练大语言模型的公司。对于百度而言,去做语言大模型这件事,并不存在着艰难的冷启动。百度一直坚持压强式、马拉松式的研发投入。2022年百度核心研发费用214.16亿元,占百度核心收入比例达到22.4%。2021年,百度总体研发投入强度为20.03%,位列民营企业500强第二。2020年,百度研发投入强度达18.22%,位列民营企业500强第一。在数据方面,搜索起家的百度,坐拥千亿级全网索引和覆盖超过50亿实体的中文知识图谱。这意味着,百度可以实现对大模型充分的训练和预测,进而使得其智能化水平不断进化。据介绍,文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。在算力和算法方向,由于AI大模型通常需要进行大量的计算和存储,因此AI企业往往需要在芯片等硬件方面投入巨资。生成式AI产品的数据量巨大,对于AI算力提出了更高的要求。去年底开始,百度智能云就在全面升级云服务能力。去年12月发布国内首个全栈自研AI基础设施“AI大底座”,今年2月升级AI研发运营一体化(MLOps)能力,今年3月百度阳泉智算中心完成升级。目前百度已拥有阳泉、徐水、定兴三个云计算中心,仅阳泉云计算中心可承载24万台服务器,为研发大语言模型提供了底层的硬件支持。百度还拥有国内规模最大的深度学习框架“百度飞桨”,为了支持千亿参数模型的高效分布式训练,百度飞桨在2021年4月专门研发了 4D 混合并行技术。截至2022年底,飞桨平台上已凝聚535万开发者、创建67万个AI模型,服务20万家企事业单位,位列中国深度学习平台市场综合份额第一。从算力、算法到数据,从高端芯片昆仑芯,到飞桨深度学习框架,百度在各个层面都早有关键自研技术,给百度文心一言提供了强大的研发投入壁垒。 走出“改变未来”第一步大语言模型对于人类而言究竟意味着什么?英诺天使基金合伙人王晟曾告诉《态℃》栏目,“今天的大模型正在无限接近通用目的技术,接近了印刷术,接近了蒸汽机,接近了电力,接近了芯片,接近了互联网。”可以想象,大模型作为技术底座支撑各个领域广泛的创新和发展,结果是会导致人类经济产生非线性的跃迁,或者说是大幅度的非线性增长。一个创造性的新世界,百度已经走出“改变未来”第一步,勇立新时代潮头。目前,大模型相关机会主要分为两个方向。第一是研发大模型,直接对标ChatGPT,比如做中国版ChatGPT,为下游企业提供API接口调用服务;第二就是将ChatGPT垂直应用到各个细分领域。随着文心一言的面世,首先改变的或许就是云市场的游戏规则:选云,看AI能力(而非算力、存储等)。未来用户对云厂商的需求更聚焦智能服务,看框架好不好、模型好不好,以及模型、框架、芯片、应用四层架构之间的协同,对原有商业模式的降维打击。同时,文心一言作为“基建”,还将为创业公司创造更大的创业空间。创业者应该会像当年围绕IOS和安卓做应用的架势,也围绕大语言模型做应用。李彦宏表示,对于大部分创业者和企业来说,真正的机会是,基于通用大语言模型,抢先开发重要的应用服务。就像移动互联网时代,最成功的商业产品不见得是安卓和IOS,而是基于安卓和IOS开发的微信、淘宝、抖音等各种超级应用。随着文心一言产品能力不断成熟,百度也将进入业绩提速的快车道。面向消费者,文心一言嵌入百度搜索,将引领搜索体验的代际变革。目前百度拥有6.48亿的月活,“文心一言”落地后,短时间内势必大幅拉升百度搜索MAU,吸引到更多的用户,产生新的流量入口,进一步优化用户体验,有望为百度搜索带来商业价值的快速增长。除搜索之外,百度旗下百度智能云、自动驾驶、小度等业务,也将通过文心一言的能力重新被赋能。未来,文心一言将与小度进行集成,升级小度智能设备和服务。面向2B业务,百度智能云提供了四层人工智能全栈能力,从云基础设施到包含深度学习开源框架的深度学习平台,再到大模型和最终应用。此外,百度还计划将文心一言整合到Apollo智舱系列产品等汽车解决方案中,让智能汽车具备领先一代的人车交互体验。语言大模型是人工智能的里程碑,更是分水岭。随着文心一言的推出,或将为百度焕发全新的生命力。 ▼ 欢迎进入粉丝群▼ 加好友备注【进群】
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?机器之心Pro2023-10-17 20:07北京机器之心Pro2023-10-17 20:07北京
Bard

清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?机器之心Pro2023-10-17 20:07北京机器之心Pro2023-10-17 20:07北京

机器之心专栏 机器之心编辑部 GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。 为了更好地理解商用 MLLMs 的漏洞,清华朱军教授领衔的人工智能基础理论创新团队围绕商用 MLLM 的对抗鲁棒性展开了研究。尽管 GPT-4V、谷歌 Bard 等模型开放了多模态接口,但其内部模型结构和训练数据集仍然未知,且配备了复杂的防御机制。尽管如此,研究发现,通过攻击白盒图像编码器或 MLLMs,生成的对抗样本可以诱导黑盒的商用 MLLMs 输出错误的图像描述,针对 GPT-4V 的攻击成功率达到 45%,Bard 的攻击成功率达到 22%,Bing Chat 的攻击成功率达到 26%。同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。 论文链接: https://arxiv.org/abs/2309.11751 代码链接: https://github.com/thu-ml/ares/tree/attack_bard 图 1:对抗攻击多模态大模型示例,可以使模型产生错误预测或者绕过安全性检测模块...
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
Bard

清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

原标题:清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱? 机器之心专栏 机器之心编辑部 GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。 为了更好地理解商用 MLLMs 的漏洞,清华朱军教授领衔的人工智能基础理论创新团队围绕商用 MLLM 的对抗鲁棒性展开了研究。尽管 GPT-4V、谷歌 Bard 等模型开放了多模态接口,但其内部模型结构和训练数据集仍然未知,且配备了复杂的防御机制。尽管如此,研究发现,通过攻击白盒图像编码器或 MLLMs,生成的对抗样本可以诱导黑盒的商用 MLLMs 输出错误的图像描述,针对 GPT-4V 的攻击成功率达到 45%,Bard 的攻击成功率达到 22%,Bing Chat 的攻击成功率达到 26%。同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。 论文链接: https://arxiv.org/abs/2309.11751 代码链接: https://github.com/thu-ml/ares/tree/attack_bard 图...
多模态大模型能力测评: Bard 是你需要的吗?
Bard

多模态大模型能力测评: Bard 是你需要的吗?

介绍 001 LVLM-eHub是一个多模态能力全面评估框架,针对12个具有代表性的多模态大模型进行了6大类多模态能力(涵盖了47+相应数据集)的评估。我们同时发布了Multimodal Chatbot Arena平台,让真实用户来提问和投票哪个模型表现得更好。 Tiny LVLM-eHub是LVLM-eHub的精简和优化版本。首先将每个原有数据集精简到50个样本以方便快速评估,然后设计了与人类评估更加一致的ChatGPT Ensemble Evaluation (CEE) 方法。最后同时加入了更多多模态大模型,其中谷歌的Bard表现最为出色。 GitHub repo:(点击文末“阅读原文”直达开源链接)https://github.com/OpenGVLab/Multi-modality-ArenaLVLM-eHub:https://arxiv.org/abs/2306.09265TinyLVLM-eHub:https://arxiv.org/abs/2308.03729Multimodal Chatbot Arena: http://vlarena.opengvlab.com 问题背景 002 继ChatGPT之后,OpenAI直播展示了GPT-4强大的支持visual input的多模态能力,虽然visual input目前还没大规模开放使用。随后学术界和工业界也纷纷把目光聚焦到多模态大模型(主要是视觉语言模型)上,比如学术界的LLaMA-Adapter和Mini-GPT4,以及工业界最具代表的Bard,而且Bard已经后来居上开放大规模用户使用。但是学术界发布的模型大多只在部分多模态能力(少数相关数据集)上进行了评估,而且也缺少在真实用户体验上的性能对比。Bard开放visual input之后也没有给出官方的多模态能力报告。在此背景下,我们首先提出了多模态大模型多模态能力的全面评估框架LVLM-eHub,整合了6大类多模态能力,基本涵盖大部分多模态场景,包括了47+个相关数据集。同时发布了模型间能力对比的众包式用户评测平台Multimodal Chatbot Arena,让真实用户来提问和投票哪个模型表现得更好。在此基础上我们还将原有每个数据集精简到50个样本(随机采样),Tiny LVLM-eHub,便于模型快速评估和迭代。设计了更加准确稳健并且与人类评估结果更加一致的评估方法,ChatGPT Ensemble Evaluation:集成多样评估提示词下的ChatPT评估结果(多数表决)。最后我们不只定量地全面评估了Bard的多模态能力,还对其进行了一系列早期能力探索和实验。 多模态能力与数据集 003 我们整合了6大类多模态能力: a.视觉感知(visual perception) b.视觉信息提取(visual knowledge acquisition) c.视觉推理(visual reasoning) d.视觉常识(visual commonsense) e.具身智能(Embodied intelligence) f. 幻觉(Hallucination) 前两类涉及到基础的感知能力,中间两类上升到高层的推理,最后两类分别涉及到将大模型接入机器人后的更高层的计划和决策能力,和在大语言模型(LLM)上也很危险和棘手的幻觉问题。 具身智能是大模型能力的应用和拓展,未来发展潜力巨大,学术界和工业界方兴未艾。而幻觉问题是在将大模型推广应用过程中众多巨大风险点之一,需要大量的测试评估,以协助后续的改善和优化。 六大多模态能力结构图    Multimodal...
微软x浸大研发WizardCoder AI程序师 性能大胜Claude、 Bard等语言模型
Bard

微软x浸大研发WizardCoder AI程序师 性能大胜Claude、 Bard等语言模型

原标题:微软x浸大研发WizardCoder AI程序师 性能大胜Claude、 Bard等语言模型 最近,大型语言模型LLM引起了人们的关注,其中OpenAI的ChatGPT备受瞩目。而近日有外媒报道,Microsoft和香港浸会大学的研究人员共同推出一款专攻编程工作的模型产品WizardCoder-15B ,可以提供指令微调。 来自Microsoft和香港浸会大学的团队人员利用大量程序代码数据进行预训练,通过对大量互联网数据进行大量预训练并利用精确的指令数据进行进一步微调,使他们能够在与程序代码相关的各种活动中表现出色。 研究人员在该项目中通过使用特定于程序代码的Evol-Instruct生成详细的程序代码指令数据来提高StarCoder开源程序代码法学硕士的功能。他们通过多种方式修改了进化提示过程,并简化了进化提示,改进了进化指令,加入了程序代码调试和时空复杂度限制。 研究人员更使用新开发的程序代码指令跟踪训练集来微调StarCoder并获得WizardCoder。 实验显示,WizardCoder的HumanEval性能增加了 +22.3,MBPP增加了 +8.2,HumanEval和HumanEval+ 的通过率方面甚至优于Anthropic的Claude和Google的Bard、PaLM、PaLM-2和LaMDA等产品。 数据源:marktechpost返回搜狐,查看更多 责任编辑:
百度王海峰在WAIC上现场展示“文心一言”,训练速度提升两倍
文心一言

百度王海峰在WAIC上现场展示“文心一言”,训练速度提升两倍

中国青年报客户端讯(中青报·中青网记者 王烨捷)7月6日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在2023世界人工智能大会(WAIC)上解读文心大模型3.5版核心技术,发布飞桨生态最新进展,阐述人工智能产业模式,为人工智能技术及产业发声。 王海峰现场推介文心一言。主办方供图 据悉,飞桨是我国第一个自主研发的产业级深度学习开源开放平台,在中国深度学习平台综合市场份额上连续两年位居第一。王海峰现场透露,截至目前飞桨已凝聚750万名开发者,这也是百度2023年以来首次对外披露飞桨生态最新数据。 现场王海峰展现了文心一言在办公、会议、编码等场景的应用,文心一言可以成为工作中的“超级助理”,帮助总结工作沟通要点,实时记录会议内容,形成会议议题、摘要及总结等关键信息,可以通过各类插件完成指令任务,包括查询日程、创建会议、设置待办、申请休假等,也可以在工程师编码过程中自动推荐和生成代码。据悉,目前这些功能已通过智能工作平台“如流”应用于百度的工作流程中,帮助提升工作效率,提高决策质量。 王海峰介绍,凡是要跟语言文字或程序代码打交道的应用场景,都可能有文心一言的用武之地。“已经有很多在积极应用文心一言的场景,例如能源、金融、教育、办公、媒体等等。”王海峰说,在文心一言这类大模型产业落地的进程中,可以采用“集约化生产,平台化应用”的模式,即具有算法、算力和数据综合优势的企业将模型生产的复杂过程封装起来,通过低门槛、高效率的生产平台,为千行百业提供大模型服务。 据悉,百度自2019年3月文心大模型发布1.0版后,历经四年技术深耕和研发迭代,现已升级到文心大模型3.5,效果、功能、性能全面提升,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。 责任编辑:宁迪 来源:中国青年报客户端
百度王海峰: 文心一言将逐步开放插件生态
文心一言

百度王海峰: 文心一言将逐步开放插件生态

7月6日,2023世界人工智能大会(WAIC)在上海世博中心开幕,会议期间,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰解读文心大模型3.5版核心技术,发布飞桨生态最新进展,阐述人工智能产业模式,为人工智能技术及产业最新发声。 飞桨已凝聚750万名开发者,文心3.5效果提升50%,推理速度提升30倍 当前,以大语言模型为代表的人工智能技术在全球掀起科技和产业创新浪潮,加速产业升级和经济增长,各行各业都将发生巨大变化。IT技术栈发生根本性改变,从芯片、操作系统和应用三层架构,转变为芯片、框架、模型、应用四层架构。深度学习框架和大模型构成了产业智能化基座,将支撑各行各业的应用智能化重构,促进经济高质量发展。 据了解,百度在人工智能四层技术栈均有布局和领先的自研技术,尤其在位于四层架构核心的框架层和模型层。文心大模型的最新成果,也得益于飞桨平台和文心的联合优化。飞桨是我国第一个自主研发的产业级深度学习开源开放平台。王海峰现场透露,截至目前飞桨已凝聚750万名开发者,这也是百度2023年以来首次对外披露飞桨生态最新数据。 百度自2019年3月文心大模型发布1.0版后,历经四年技术深耕和研发迭代,现已升级到文心大模型3.5。王海峰表示,文心大模型3.5效果、功能、性能全面提升,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。 核心技术持续突破,效果和效率齐跃升 今年3月,百度在全球大型科技公司中第一个发布了大语言模型文心一言。文心一言是知识增强的大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。 王海峰解读了文心大模型3.5的核心技术创新,在基础模型训练上,采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略,并采用多种策略优化数据源及数据分布,加快了模型迭代速度,显著提升了模型效果和安全性。同时,创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术,进一步提升模型效果及场景适配能力。 在知识增强和检索增强基础上,文心大模型3.5提出了“知识点增强技术”,对用户输入的查询、问题等进行分析理解,解析出生成答案所需要的相关知识点,之后运用知识图谱和搜索引擎为这些知识点找到相应答案,最后再用这些知识点构造输入给大模型的提示,为大模型注入更具体、更详细、更专业的知识点,显著提升大模型对世界知识的掌握和运用。 在推理方面,通过大规模逻辑数据构建、逻辑知识建模、多粒度语义知识组合以及符号神经网络技术,提升文心大模型3.5在逻辑推理、数学计算及代码生成等任务上的表现。 新增插件机制,拓展大模型能力边界 文心大模型3.5新增了插件机制,文心一言已经于6月17日对外发布官方插件百度搜索和ChatFile。百度搜索是默认的内置插件,使得文心一言具备生成实时准确信息的能力。ChatFile是长文本摘要和问答插件,支持超长文本输入。 王海峰表示,文心一言将发布更多优质的百度官方和第三方插件,让用户能够更好地应用文心大模型,同时也将逐步开放插件生态,帮助开发者基于文心大模型打造自己的应用。 广泛应用于各类场景,加速产业智能化升级 现场王海峰展现了文心一言在办公、会议、编码等场景的应用,文心一言成为工作中的“超级助理”,帮助总结工作沟通要点,实时记录会议内容,形成会议议题、摘要及总结等关键信息,可以通过各类插件完成指令任务,包括查询日程、创建会议、设置待办、申请休假等,也可以在工程师编码过程中自动推荐和生成代码。据悉,目前这些功能已通过智能工作平台“如流”应用于百度的工作流程中,帮助提升工作效率,提高决策质量。 王海峰表示,凡是要跟语言文字或程序代码打交道的应用场景,都可能有文心一言的用武之地。已经有很多在积极应用文心一言的场景,例如能源、金融、教育、办公、媒体,等等。在文心一言这类大模型产业落地的进程中,可以采用“集约化生产,平台化应用”的模式,即具有算法、算力和数据综合优势的企业将模型生产的复杂过程封装起来,通过低门槛、高效率的生产平台,为千行百业提供大模型服务。