《大模型热度过了吗？》

文章主题：大模型, 人工智能, 自然语言处理, Transformer架构

近期，大模型的热度似乎有所降低。根据今年6月的数据，ChatGPT的访问量较上月下降了9.7%，这是该模型自推出以来的首个下滑月份。从全球视角来看，虽然仍有企业发布或更新大模型，但媒体和公众对于大模型的热情似乎已经不如之前了。

在2023世界人工智能大会青年优秀论文奖颁奖仪式暨青年科学家论坛中，复旦大学计算机科学技术学院教授邱锡鹏指出，尽管我们称之为“百模大战”，但实际上，各大模型之间的同质化现象相当严重，具备实质性的创新成果却寥寥无几。换言之，这些大模型尚未达到成为单纯工程问题的地步，离人们心中所期待的通用人工智能仍有许多科学问题待解答。

“百模大战”其实是挤同一条赛道

在邱锡鹏的演讲中，他对大型人工智能模型的科学价值提出了质疑。事实上，大型模型的发展并非一蹴而就，而是历经数十年的科研积累。然而，在 ChatGPT 成为热点之后，一个显著的现象是科学研究在这个领域的进展似乎减缓，许多人开始期待通过工程方法来实现突破。

在当今的AI领域，尤其是自然语言处理领域，大模型的预训练框架已经逐渐从传统的循环神经网络（RNN）转向了更为先进的Transformer架构。尽管Transformer架构具有很多优点，如高效、并行化处理等，但它的局限性也开始逐渐暴露出来。最为明显的问题之一就是，这种架构所需的计算资源极为庞大，甚至需要超级计算机的支撑才能确保其正常运行。

此外，生成范式逐渐成为主导方向，这要求 utilizing大型模型时，必须将任务转变为生成式，包括处理一些复杂结构化预测问题。事实上，生成式范式也在走向一致性，过去曾是Seq2Seq（一种序列到序列的深度学习模型）与LM（语言模型）两大类别，如今仅剩下后者。

此外，科研领域正在逐渐萎缩。邱锡鹏指出，以自然语言处理（NLP）为例，在2015年之前，这个领域包含了许多不同的研究方向，如对话系统、问题回答、机器翻译等。当时的学者们各自专注于自己的研究领域，并从其他学科中寻找灵感。然而，如今大部分研究者都集中在了大语言模型这一条道路上。

大模型面临“十大科学挑战”

尽管大模型展现出通往通用人工智能的潜力，但这条路并不好走。邱锡鹏列出了大模型亟需解决的“十大科学挑战”，包括架构设计、思维链、幻觉、多模态延展、自动化评价、平民化等。其中，大模型的架构创新是当务之急。邱锡鹏说，大模型之所以称为大模型，是因为其庞大的数据量使其拥有了涌现的能力，虽然人们至今不知道涌现是如何发生的，但是否有涌现是区别大模型与小模型的主要特征。换言之，想要大模型更智能，继续扩大其规模是一条显而易见的路。

原内容表述较为简洁，但存在部分信息可以进一步补充。在分析当前主流Transformer架构的基础上，我们可以指出其对模型规模扩张的制约因素，并强调寻求新架构的重要性。以下是重新组织后的内容：然而，当前主流的Transformer架构在一定程度上已经限制了模型的扩展性。这主要是因为Transformer架构的复杂度随输入字符长度的增加而呈平方级增长，也就是说，每当增加一个字符，计算量就会以指数级速度上升。因此，我们亟需寻找更为高效的新架构，以便更好地支持未来模型规模的无缝扩展。

在大模型发展的道路上，评价体系的建立是一个关键性的环节。当前，虽然存在着诸多针对大模型的评估排名，但在业界并未形成统一的评价准则。尤其是那些擅长“刷题”的大模型，仅依赖数据集上的表现已经无法充分衡量其真实实力。因此，构建一套全面、公正的评价体系对于推动大模型的发展具有重要意义。

颠覆性创新常在“冷门”处

深入研究创新规律不难发现，越是扎堆的“热门”圈子，往往难出颠覆性创新成果，ChatGPT本身就是个“冷门选手”爆火的案例。在其火遍全球之前，在大语言模型领域，谷歌的“理解与生成相结合”的路线是绝对的主流，在这种情况下，研发ChatGPT的OpenAI公司仍然选择坚持走自己的路。

现在，原本默默无闻的生成式AI成为了“顶流”。当人们一哄而上投入其中时，仍有一部分人还在坚持以IBM沃森机器人为代表的“AI符号主义”技术路线。以“爆款”常偏爱“冷门”的创新规律来看，或许未来的“核爆点”会奖励默默坚持的“少数派”。

事实上，获得今年世界人工智能大会最高奖项SAIL奖（卓越人工智能引领者奖）的论文《机器学习结合阻抗谱技术预测锂电池老化》，就不是一个关于大模型的研究。文章第一作者、中山大学物理学院副教授张云蔚说，她只采集了2万个电化学阻抗谱，就实现了AI精准建模。比起海量数据，更重要的是思路。就是这样一个小模型，将过去需要花费几天才能实现的电池寿命预测缩短到了15分钟，且检测精度是原来的10倍。

在大模型爆火的半年多时间里，大家似乎形成了一种共识，即只有资金雄厚和数据储备充足的大厂才有进军大模型的资格。对此，邱锡鹏认为，大模型还有大量科学问题需要攻关，这些问题除了预训练阶段需要耗费大算力外，在对齐、指令微调等方面所需的算力并不高。而随着算法的优化，3090显卡足以能完成大模型的研究，这是一条小公司也能“出奇迹”的赛道。

作者丨沈湫莎

编辑丨蒋竹云

大模型, 人工智能, 自然语言处理, Transformer架构

ChatGPT GPT 对话生成翻译问答

相关文章

发表回复 取消回复

发表回复取消回复