1.马尔可夫算法

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

2.马尔可夫逻辑网

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

3.马尔可夫估计

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

4.马尔可夫模型

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。

5.idrisi马尔可夫模型预测

他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性(插图

6.马尔可夫原理

论文标题:The Markovian Thinker论文地址:https://arxiv.org/abs/2510.06557v1模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd

7.马尔可夫引理

代码仓库:https://github.com/McGill-NLP/the-markovian-thinker这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在 𝕏 上表示,Delethink 的有效性开启了强化学习思维环境的创新。

8.马尔可夫概念

此外,马尔可夫思维的程度及其有效性表明,推理 LLM 可以以不同的方式构建,或许可以采用非二次架构

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性(插图1

9.马尔可夫模型算法

马尔可夫式思考机马尔可夫式思考机的核心思想是重构强化学习的构成形式,使得无论总思考长度如何,策略读取的有效状态大小都是有界的其直接效果是深远的:更长的思考过程仅需线性的计算量和恒定的内存,这与思考长度有关,从而将「模型思考多久」与「它必须处理多少上下文」这两个问题解耦。

10.马尔可夫分析

他们通过

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。