1.田渊栋博士

对于大型语言模型而言,生成更长、更复杂的推理链,往往意味着巨大的计算成本为了解决这一难题,田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式,它将推理轨迹保留在连续的隐空间中,而非离散的文字符号。

2.田渊简介

现在,他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题:这种高效的推理范式是如何在训练中自发产生的?答案指向了一种关键机制——叠加的涌现 大型语言模型(LLM)在许多复杂任务上展现出了强大的推理能力,尤其是在引入思维链(CoT)之后。

3.田渊正浩个人资料

然而,长思维链在复杂任务中的推理成本极高,因此,近期有不少研究在尝试寻找更高效的测试时扩展方法,以期望更高效地提升模型的推理能力一种前景较为可观的方法是田渊栋团队在 2024 年提出的「连续思维链」(Chain-of-Continuous-Thought,简称 Coconut)。

4.田渊正浩百度百科

与传统的 CoT 不同,连续思维链是将模型的推理轨迹保存在连续隐空间中,而非回投到离散的 token 空间这种做法不仅在理论上具有多项优势,在实验中也带来了显著性能提升然而,若要让连续思维链更高效、更稳定地扩展到更复杂的推理任务,就必须更深入地理解它的内部机制。

5.田渊正浩2020

该团队 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已从理论上指出,连续思维链的一个关键优势在于它能使模型在叠加(superposition)状态下进行推理:当模型面对多个可能的推理路径而无法确定哪一个是正确时,它可以在连续空间中并行地保留所有可能的路径,而不像离散 token 那样必须选择单一路径。

6.田渊正浩教你

具体来说,该研究将一类推理任务抽象为有向图可达性(a directed graph reachability)问题 —— 即判断从给定起点节点能否到达目标节点。

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理(插图

7.田渊投资了几个公司

他们进一步证明,只需一个两层 Transformer,经过 O (n) 次连续思维解码(其中 n 为图中节点数量),即可通过特定参数构造有效地解决该问题因此,一个自然的问题随之而来:梯度下降训练能否自然地收敛出这种结构?我们能否在理论上证明这一点?。

8.田渊正浩采访

近日,田渊栋与 Stuart Russell 两个团队合力,发表了论文《叠加的涌现》,对这个问题给出正面回答本论文一作 Hanlin Zhu(竺涵林)为加利福尼亚大学伯克利分校(UC Berkeley)电子工程与计算机科学系博士生,此前毕业于清华大学姚班。

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理(插图1

9.田渊正二

论文标题:Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous ThoughtPaper:https://arxiv.org/abs/2509.23365v1

10.田渊正豪

具体来说,他们通过对一个简化的两层 Transformer 在「图可达性问题」上的训练动态进行理论分析,将训练过程划分为两个阶段:思维生成(thought generation)阶段:模型自回归地生成一条连续思维链;

预测(prediction)阶段:模型利用已生成的思维进行最终预测值得注意的是,通过对思维生成阶段进行分析,该团队揭示了一个重要现象:即便每个训练样本只包含一个演示样例,叠加(superposition)仍然会在训练中自发涌现。

他们的理论分析与实验结果均表明,当采用连续思维训练(Coconut 方法)时,索引匹配 logit(index-matching logit)(衡量模型局部搜索能力强度的一个关键指标)在温和假设下保持有界(bounded)。

这与传统 Transformer 分析截然不同 —— 后者在无连续思维的情况下,logit 会呈对数增长并趋于无界一个有界的索引匹配

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。