顶着压力,百度发布文心一言,邀请测试开启
机器之心报道 编辑:泽南、蛋酱 发布会撞车又如何,百度也拿出了多模态。 在业内人们的认知中,能造出国产 ChatGPT 的公司里,百度排名前列,然而文心一言发布前夕,OpenAI 率先发布了功能更为强大的多模态大模型 GPT-4,巨大的压力给到了百度这一边。这一次,文心能否回应人们的期待? 距离 GPT-4 发布仅 37 个小时后,答案就被揭晓了: 3 月 16 日下午,百度正式发布了知识增强大语言模型「文心一言」。 「这段时间不断有人问我:你们为什么现在发布,你们是不是真的 ready 了?」百度创始人、董事长兼首席执行官李彦宏说道。「其实自 2019 年起,每年文心大模型都要发布一个新的版本。文心一言的发布是我们过去多年努力的自然延续。」 文心一言当然是要对标 ChatGPT,甚至 GPT-4。李彦宏表示,在全球大厂中,这样的产品百度是第一个发布的。 既然文心一言正式登场了,那肯定要上手试试。在现场,百度展示了文心一言在文学创作、商业文案、数理逻辑、中文理解和多模态生成方面的能力。 续写《三体》,文字生成视频 今天下午,李彦宏总共展示了五个案例,介绍文心一言的能力: 首先来体验一下文学创作。关于知名科幻小说《三体》,李彦宏和文心一言进行了一番对话: 具体来说,「总结三体的核心内容」体现了文心一言的总结与分析能力,而续写《三体》体现了内容创作生成能力,再到「于和伟和张鲁一有哪些共同点」、「于和伟和张鲁一谁更高」这类问题背后,体现的则是文心一言的推理能力 —— 它需要先知道两人的准确身高,才能得出正确答案。 接下来,李彦宏还展示了文心一言的商业文案创作水平,包括给一家科技公司起名字、写 slogan、写新闻稿。 AI 要写好一篇稿子,除了需要准确理解我们的意图,还要有清晰的表达能力。 「对于语言大模型来说,这背后需要庞大的数据规模作为基础。人类常说『读万卷书』,而 AI 是『读书破千亿卷』。文心一言大模型的训练数据就包括万亿级网页数据,数十亿的搜索数据和图片数据,百亿级的语音日均调用数据,以及 5500 亿事实的知识图谱等,这让百度在中文语言的处理上,能够处于独一无二的位置,」李彦宏说道。 越来越多的研究和实践表明,大模型在参数体量达到某个量级时,就可能发生「智能涌现」,即使在没有专门训练过的领域,也能涌现出知识理解和逻辑推理能力。 我们无法将所有能力一一教给 AI,但通过大量数据的训练、数十亿的搜索请求,大量图片和知识图谱中的事实,在不断的训练过程中,文心一言拥有了通用化的能力。不知道文心一言目前的参数达到了多少。...