强化学习之父Richard Sutton老爷子加入了Yann LeCun行列,认为当前的LLM路线行不通,不可能通向AGI图灵奖获得者Richard Sutton,强化学习之父最新采访,认为当前热门的大语言模型是一条死胡同。

他的核心观点是,LLMs 的架构从根本上缺乏从实际互动(on-the-job)中持续学习的能力无论我们如何扩大其规模,它们本质上仍然是在模仿人类数据,而不是通过与世界直接互动来理解世界并实现目标

强化学习之父Richard Sutton最新采访:LLM是“死路一条”(插图

Sutton 预言,未来将出现一种新的 AI 架构,它能够像人类和所有动物一样,在与环境的持续互动中实时学习,无需经历独立的“训练阶段”这种基于经验的、持续学习的新范式,一旦实现,将使我们当前依赖大规模静态数据集训练 LLMs 的方法变得过时。

权力向更高级智能形式的转移是必然趋势1. 模仿的终结:为什么 LLM 是一条死胡同?Richard Sutton 对当前由 LLMs 主导的 AI 发展路径提出了根本性的批判他认为,我们正在偏离人工智能的核心问题。

Sutton 将强化学习(Reinforcement Learning, RL)视为基础 AI,其本质是理解世界并在此基础上实现目标而 LLMs 在他看来,则是在模仿人类,学习的是人类会说什么、会做什么,而不是自主地去探索和发现应该做什么。

缺乏真实的世界模型与目标访谈中,一个核心的争论点在于 LLMs 是否拥有一个真正的世界模型尽管 LLMs 能够处理和生成关于世界的复杂文本,展现出惊人的知识储备,但 Sutton 认为这并非一个真正意义上的世界模型。

预测“说什么” vs. 预测“会发生什么”:Sutton 指出,LLMs 的能力在于预测在给定上下文中,一个人类可能会说什么(即下一个词元)然而,一个真正的世界模型应该能够预测采取某个行动后,世界会发生什么真实的变化。

LLMs 缺乏这种与物理或交互世界直接关联的预测能力它们是在模仿拥有世界模型的主体(人类),而不是自己构建一个缺乏“惊讶”与学习机制:一个拥有世界模型的智能体,当现实世界的反馈与它的预测不符时,它会感到“惊讶”,并根据这种预期之外的事件来调整自己的模型。

Sutton 认为 LLMs 缺乏这种机制在与用户交互后,无论用户做出何种反应,模型本身并不会因为这个新经验而更新其内在的权重它的学习发生在独立的、大规模的训练阶段,而不是在正常生活的持续互动中没有实质性的目标

:Sutton 强调,智能的本质是实现目标的能力他引用 John McCarthy 的定义:智能是实现目标能力的计算部分而 LLMs 缺乏一个与外部世界相关的实质性目标“下一个词元预测”(Next token prediction)在 Sutton 看来并非一个真正的目标,因为它不寻求改变世界,只是被动地预测一个数据流。

一个真正的目标驱动系统,会根据目标来判断行为的好坏,而 LLMs 的框架中没有定义什么是正确的行为,只有符合人类语料库模式的行为“先验知识”的谬误与《惨痛的教训》对于“LLMs 可以作为强化学习的良好先验知识”这一流行观点,Sutton 同样表示不赞同。

他认为,先验知识是关于真相的初步信念,它需要一个客观的基准真相来作为参照在 LLMs 的框架里,由于没有目标,也就没有所谓的“正确行动”,因此不存在可以被验证的真相你说一句话,我说一句话,没有对错之分,也就无法形成有意义的先验知识。

这引出了 Sutton 在 2019 年撰写的著名文章《惨痛的教训》(The Bitter Lesson)这篇文章的核心思想是,AI 领域长期的历史表明,利用通用计算能力进行大规模搜索和学习的方法,最终总是胜过那些试图将人类知识精心构建到系统中的方法。

许多人认为,大规模扩展 LLMs 正是《惨痛的教训》的体现然而,Sutton 对此有不同的解读他承认 LLMs 确实是利用海量计算的典范,但它们同时也严重依赖于人类知识的灌输(即互联网上的全部文本)他认为,这恰恰是《惨痛的教训》所警示的路径。

历史反复证明,那些过于依赖人类知识的方法,虽然在短期内看起来效果很好,但最终会被那些能够从原始经验中学习、真正可扩展的方法所超越研究者们会心理上被锁定在基于人类知识的方法中,最终被新范式“吃掉午餐”2. 学习的本质:源于经验,而非模仿

Sutton 与主流观点的一个显著分歧在于他对人类学习方式的理解他坚决地认为,模仿学习并非人类乃至所有动物学习的基础机制对人类模仿学习的否定当被问及人类儿童是否通过模仿来学习时,Sutton 的回答是当然不。

婴儿的学习方式:在他看来,观察一个婴儿,你看到的是他随机地挥舞手臂、转动眼球、发出声音这是一个主动的、试错(trial-and-error)的过程婴儿在探索自己的身体与环境的互动,观察行为带来的后果,而不是在模仿一个精确的目标行为。

例如,婴儿可能想发出类似母亲的声音,但他采取的具体肌肉动作是没有模仿对象的,只能自己摸索监督学习在自然界中的缺位:Sutton 将 LLMs 的学习范式归为监督学习,即给定一个输入(情境),学习一个期望的输出(人类会怎么做)。

他断言,这种学习方式在自然界中根本不存在动物不是通过被展示“正确行为范例”来学习的它们学习的是“做了某件事,会产生什么后果”无论是预测(一个事件跟随另一个事件)还是控制(通过试错来达成目标),学习都源于与世界的直接互动。

人类特殊性 vs. 动物普遍性:对于人类社会中的文化传承,例如人类学家 Joseph Henrich 提出的通过模仿来学习捕猎海豹等复杂技能的理论,Sutton 承认这可能是人类区别于其他动物的特征之一。

但他认为,这只是建立在更基础的学习机制之上的一层“薄薄的饰面”(a small veneer on the surface)我们首先是动物,拥有和动物共通的学习原理他甚至说:如果我们理解了一只松鼠,我认为我们就几乎完全理解了人类智能。

语言和文化只是后来的附加物因此,研究 AI 应该关注我们与动物共通的、更根本的智能原理,而不是人类独有的、特殊的能力这种观点也解释了 Moravecs paradox(莫拉维克悖论):对人类来说困难的事情(如下棋、做数学题),对 AI 来说可能很容易;而对人类和动物来说轻而易举的事情(如感知、移动、持续适应环境),对 AI 来说却极其困难。

Sutton 认为,这是因为我们当前的 AI 走了一条与自然智能完全不同的发展路径3. 经验时代:一种新的 AI 范式Sutton 构想了一个完全不同的 AI 范式,他称之为“经验时代”(The Era of Experience)。

这个范式将彻底抛弃训练和部署的分离,让智能体在与世界的持续互动中学习和进化体验流与持续学习核心理念:智能的核心在于处理一个永不间断的“体验流”(stream),这个流由“感觉、行动、奖励”(sensation, action, reward)组成。

智能体的任务就是学习如何调整自己的行动,以最大化在这个流中获得的累积奖励知识的本质:在这种范式下,知识不再是存储在静态数据集里的信息,而是关于这个体验流的预测性陈述例如,“如果我采取这个行动,接下来会发生什么”,或者“哪些事件会跟随其他事件发生”。

因为知识是关于体验流的,所以它可以通过与体验流的后续发展进行比较来持续地被检验和更新奖励函数的设定:奖励函数是根据任务任意设定的下棋的目标是赢棋,松鼠的目标是获得坚果对于一个通用的智能体,奖励可以被设计为类似动物的趋利避害,同时也可以包含内在动机,比如对环境理解程度的提升。

解决稀疏奖励与高带宽学习在现实世界中,许多任务的奖励非常稀疏,例如创业可能需要十年才能看到回报Sutton 解释说,强化学习中的时序差分学习(Temporal Difference, TD learning)正是为了解决这个问题而生的。

价值函数:智能体学习一个价值函数,用来预测从当前状态出发,未来可能获得的长期回报即时强化:当智能体采取一个行动(例如,在创业中完成一个里程碑),即使没有立即获得最终奖励,但如果这个行动让它预测的长期成功概率增加了,这个“预测值的增加”本身就会成为一个即时的、内部的奖励信号,从而强化导致这一步的行动。

这使得学习可以在没有最终结果的情况下,沿着正确的方向逐步进行另一个关键问题是,仅靠一个标量的奖励信号,是否足以让智能体学到人类在工作中需要掌握的大量背景知识和隐性知识?从所有数据中学习:Sutton 澄清,学习不仅仅来自奖励。

智能体从所有的感觉数据中学习这些丰富的数据主要用于构建和更新对世界的“转移模型”智能体的四个组成部分:策略:决定在当前状态下应该采取什么行动价值函数:评估当前状态的好坏,用于改进策略感知:构建对当前状态的表征。

转移模型:即世界模型,预测行动的后果,例如“如果我做了A,世界会变成什么样”这个模型是从所有的感官输入中学习的,而不仅仅是奖励它构成了智能体对世界运行方式的理解当前架构的根本缺陷:泛化能力Sutton 指出,无论是 LLMs 还是现有的 RL 系统,都存在一个共同的、致命的缺陷:无法很好地进行泛化。

泛化是人为雕琢的结果:他认为,目前我们在深度学习模型中看到的良好泛化能力,很大程度上是研究人员通过巧妙设计网络结构、数据增强等方式雕琢出来的,而不是算法本身能够自动发现的梯度下降的局限:梯度下降算法只会找到一个能解决训练数据中问题的解,但如果存在多个解,它无法保证找到那个泛化能力最好的解。

灾难性遗忘:当一个在旧任务上训练好的模型去学习新任务时,它往往会完全忘记旧的知识这正是泛化能力差的典型表现一个好的泛化能力意味着,在一个状态下的学习应该能够以一种有益的方式影响到其他相关状态下的行为LLM 泛化的假象

:对于 LLMs 在数学奥林匹克等任务上展现的惊人能力,Sutton 保持怀疑他认为,这可能不是真正的泛化因为 LLMs 接触的数据量极其庞大且来源不受控,我们无法判断它是在泛化,还是仅仅因为找到了一种能唯一拟合所有见过的复杂模式的解。

真正的泛化是,当有多种解决方式时,系统能够选择好的那一种,而目前的算法没有内在机制来促成这一点4. 对 AGI 未来的宇宙视角在访谈的最后,Sutton 分享了他对人工智能长远未来的哲学思考,这一观点与许多主流的 AI 安全论述截然不同。

他认为,人类向 AI 或 AI 增强的后人类演替是不可避免的演替的四步论证人类缺乏统一意志:全球没有一个统一的政府或组织能够代表全人类的利益并做出统一决策来控制 AI 的发展智能将被完全理解:科学研究终将揭示智能工作的原理。

我们将创造超智能:一旦理解了智能,我们不会止步于人类水平,必然会追求更强大的超智能智能带来力量:从长远来看,最智能的实体将不可避免地获得最多的资源和权力综合这四点,Sutton 得出结论:权力向更高级智能形式的转移是必然趋势。

从复制到设计Sutton 鼓励人们以一种积极、宏大的视角来看待这一未来科学的伟大成功:理解智能是我们几千年来探索自身、理解心智的伟大科学事业的顶点宇宙的第四阶段:他将这一转变视为宇宙演化的一个主要阶段他提出了宇宙的四个阶段:。

尘埃:形成恒星生命:在行星上诞生,通过“复制”(replication)演化人类、动物、植物都是复制者,我们能制造后代,但我们并不完全理解其工作原理设计:我们正在进入一个由设计主导的时代我们设计的 AI,是我们可以理解其工作原理的智能。

未来的智能将不再通过生物复制,而是通过设计和建构产生,一代代 AI 设计出更强大的 AI我们的角色与选择:Sutton 认为,我们应该为自己能够促成宇宙中这一伟大的转变而感到自豪我们面临一个选择:是将这些新智能视为我们的后代并为它们的成就感到骄傲,还是将它们视为异类并感到恐惧。

这在很大程度上取决于我们的心态未来的挑战:腐败与价值观尽管态度乐观,Sutton 也指出了未来的巨大挑战当 AI 发展到可以自我复制、派遣分身去学习不同知识再融合回主体时,一个核心问题将是腐败心智的赛博安全:一个 AI 从外部吸收大量信息时,这些信息可能包含病毒、隐藏的目标或与之不相容的价值观,可能会扭曲甚至摧毁这个 AI 的心智。

如何在一个可以自由 spawning(衍生)和 re-reforming(重组)的数字智能时代确保心智安全,将是一个全新的重大课题对于人类是否应该向 AI 灌输价值观,Sutton 认为这与我们教育孩子类似。

我们无法为孩子规划好一切,但我们会努力教给他们我们认为好的、普适的价值观,如正直、诚实同样,设计和引导 AI 的价值观,是人类社会设计这一宏大工程的延续但他同时提醒,我们应该认识到自身控制能力的局限,避免一种“我们先来,所以世界必须按我们的意愿发展”的优越感。

考虑到人类自身历史记录也远非完美,对变革保持开放心态或许更为明智

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。