文章主题:大模型, 人工智能, 自然语言处理, Transformer架构
近期,大模型的热度似乎有所降低。根据今年6月的数据,ChatGPT的访问量较上月下降了9.7%,这是该模型自推出以来的首个下滑月份。从全球视角来看,虽然仍有企业发布或更新大模型,但媒体和公众对于大模型的热情似乎已经不如之前了。
在2023世界人工智能大会青年优秀论文奖颁奖仪式暨青年科学家论坛中,复旦大学计算机科学技术学院教授邱锡鹏指出,尽管我们称之为“百模大战”,但实际上,各大模型之间的同质化现象相当严重,具备实质性的创新成果却寥寥无几。换言之,这些大模型尚未达到成为单纯工程问题的地步,离人们心中所期待的通用人工智能仍有许多科学问题待解答。
“百模大战”其实是挤同一条赛道
在邱锡鹏的演讲中,他对大型人工智能模型的科学价值提出了质疑。事实上,大型模型的发展并非一蹴而就,而是历经数十年的科研积累。然而,在 ChatGPT 成为热点之后,一个显著的现象是科学研究在这个领域的进展似乎减缓,许多人开始期待通过工程方法来实现突破。
在当今的AI领域,尤其是自然语言处理领域,大模型的预训练框架已经逐渐从传统的循环神经网络(RNN)转向了更为先进的Transformer架构。尽管Transformer架构具有很多优点,如高效、并行化处理等,但它的局限性也开始逐渐暴露出来。最为明显的问题之一就是,这种架构所需的计算资源极为庞大,甚至需要超级计算机的支撑才能确保其正常运行。
此外,生成范式逐渐成为主导方向,这要求 utilizing大型模型时,必须将任务转变为生成式,包括处理一些复杂结构化预测问题。事实上,生成式范式也在走向一致性,过去曾是Seq2Seq(一种序列到序列的深度学习模型)与LM(语言模型)两大类别,如今仅剩下后者。
此外,科研领域正在逐渐萎缩。邱锡鹏指出,以自然语言处理(NLP)为例,在2015年之前,这个领域包含了许多不同的研究方向,如对话系统、问题回答、机器翻译等。当时的学者们各自专注于自己的研究领域,并从其他学科中寻找灵感。然而,如今大部分研究者都集中在了大语言模型这一条道路上。
大模型面临“十大科学挑战”
尽管大模型展现出通往通用人工智能的潜力,但这条路并不好走。邱锡鹏列出了大模型亟需解决的“十大科学挑战”,包括架构设计、思维链、幻觉、多模态延展、自动化评价、平民化等。其中,大模型的架构创新是当务之急。邱锡鹏说,大模型之所以称为大模型,是因为其庞大的数据量使其拥有了涌现的能力,虽然人们至今不知道涌现是如何发生的,但是否有涌现是区别大模型与小模型的主要特征。换言之,想要大模型更智能,继续扩大其规模是一条显而易见的路。
原内容表述较为简洁,但存在部分信息可以进一步补充。在分析当前主流Transformer架构的基础上,我们可以指出其对模型规模扩张的制约因素,并强调寻求新架构的重要性。以下是重新组织后的内容:然而,当前主流的Transformer架构在一定程度上已经限制了模型的扩展性。这主要是因为Transformer架构的复杂度随输入字符长度的增加而呈平方级增长,也就是说,每当增加一个字符,计算量就会以指数级速度上升。因此,我们亟需寻找更为高效的新架构,以便更好地支持未来模型规模的无缝扩展。
在大模型发展的道路上,评价体系的建立是一个关键性的环节。当前,虽然存在着诸多针对大模型的评估排名,但在业界并未形成统一的评价准则。尤其是那些擅长“刷题”的大模型,仅依赖数据集上的表现已经无法充分衡量其真实实力。因此,构建一套全面、公正的评价体系对于推动大模型的发展具有重要意义。
颠覆性创新常在“冷门”处
深入研究创新规律不难发现,越是扎堆的“热门”圈子,往往难出颠覆性创新成果,ChatGPT本身就是个“冷门选手”爆火的案例。在其火遍全球之前,在大语言模型领域,谷歌的“理解与生成相结合”的路线是绝对的主流,在这种情况下,研发ChatGPT的OpenAI公司仍然选择坚持走自己的路。
现在,原本默默无闻的生成式AI成为了“顶流”。当人们一哄而上投入其中时,仍有一部分人还在坚持以IBM沃森机器人为代表的“AI符号主义”技术路线。以“爆款”常偏爱“冷门”的创新规律来看,或许未来的“核爆点”会奖励默默坚持的“少数派”。
事实上,获得今年世界人工智能大会最高奖项SAIL奖(卓越人工智能引领者奖)的论文《机器学习结合阻抗谱技术预测锂电池老化》,就不是一个关于大模型的研究。文章第一作者、中山大学物理学院副教授张云蔚说,她只采集了2万个电化学阻抗谱,就实现了AI精准建模。比起海量数据,更重要的是思路。就是这样一个小模型,将过去需要花费几天才能实现的电池寿命预测缩短到了15分钟,且检测精度是原来的10倍。
在大模型爆火的半年多时间里,大家似乎形成了一种共识,即只有资金雄厚和数据储备充足的大厂才有进军大模型的资格。对此,邱锡鹏认为,大模型还有大量科学问题需要攻关,这些问题除了预训练阶段需要耗费大算力外,在对齐、指令微调等方面所需的算力并不高。而随着算法的优化,3090显卡足以能完成大模型的研究,这是一条小公司也能“出奇迹”的赛道。
作者丨沈湫莎
编辑丨蒋竹云
大模型, 人工智能, 自然语言处理, Transformer架构