算力成本大降，马尔可夫思考机来了，LLM推理成本直接降为线性-新糖宝胶囊官方网站

用强化学习让 LLM 具备推理（reasoning）能力确实很有效，但耗费颇高。

这类模型在回答问题前会生成一长串的思维链（LongCoT）；并且增加「思考 token」的数量能够提升模型的能力。与任何强化学习问题一样，它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言，这个环境相当简单，以至于常常被忽略：状态（state）是由提示词（prompt）与截至目前已生成的推理 token 拼接而成，而动作（action）则是从策略（即推理 LLM）中采样的下一个 token。

这种设计看似轻巧，但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说，这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量，人们已经提出了许多方法，包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日，Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径，提出了一个不同的问题：如果环境从一开始就不会造成计算量的二次级增长呢？

他们提出了一种新的范式，其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机（Markovian Thinker)。

论文标题：The Markovian Thinker

论文地址：https://arxiv.org/abs/2510.06557v1

模型地址：https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd

代码仓库：https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在

发布时间：2025-10-10 16:00

上一篇:
景区门店暴增10倍，国庆饮品爆单榜新鲜出炉
下一篇:
比黄金涨得还猛，它，价格创14年新高

算力成本大降，马尔可夫思考机来了，LLM推理成本直接降为线性

景区门店暴增10倍，国庆饮品爆单榜新鲜出炉

比黄金涨得还猛，它，价格创14年新高