1.temed打碎了怎么办

Transformer可以说整个LLM的基石,但这个基石要松动了!8年了!持续了8年的Transformer底层架构似乎要被Meta打破了Meta推出「自由Transformer」(Free Transformer)。

新模型在AI架构领域引发社交媒体热议。首次打破自2017年以来所有GPT模型的核心规则:不再是逐token盲猜式生成,而是在生成前能「预先思考」。

Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识(插图

论文地址:https://arxiv.org/pdf/2510.17558研究者在解码器中引入了潜在随机变量Z,让模型在输出前进行内部采样与规划,相当于为Transformer增加了一层「潜意识」这一创新仅增加约3%的计算开销,却显著提升了模型在推理与结构化生成上的表现,在。

GSM8K、MMLU、HumanEval等测试中超越更大规模的模型Meta称,这可能是第一种「有内在意图」的Transformer用潜在随机变量打造机器「潜意识」Meta在解码器中加入了潜在随机变量(Z)。

可以将其视为生成文本前的「潜意识层」,模型会采样内部选择来引导整个序列的风格或结构从技术上讲,这是通过内置在Transformer内部的条件变分自编码器(VAE)实现的Meta将其命名为Free Transformer。

Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识(插图1

不同Transformer架构如何处理名为Z的随机隐藏状态图中第一个展示的是标准Transformer,仅根据前序token预测下一个token第二个架构增加了随机状态Z,并在训练时使用额外的编码器网络来推断每个样本对应的隐藏状态。

第三种架构名为Free Transformer,简化了这一过程它直接在模型中间层注入随机状态,而非使用独立的全编码器在训练过程中,编码器仍被使用一次,以帮助模型学会如何选取良好的隐藏状态,但它仅与网络的一部分协同工作。

在推理过程中,编码器被跳过,随机状态Z被直接采样这种设计使模型能够早期做出全局决策,帮助它在没有太多额外计算的情况下产生更一致和稳定的输出因此,一半模块充当共享编码器,其余模块则基于该潜在上下文进行解码。

在常规设置中,若使用随机隐藏状态,每次生成文本时都必须同时使用编码器和解码器这会使成本翻倍自由变换器避免了这一点它在训练过程中学习共享的内部结构,之后便丢弃编码器在推理时,它直接采样隐藏状态并仅运行解码器。

与标准模型相比,这种设计仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担。

Meta打碎Transformer 8年铁律!改写AI最底层规则,模型首次冒出潜意识(插图2

它采用经典的VAE目标进行训练:交叉熵损失 编码器分布 Q(Z|S)与先验 P(Z)之间的KL散度惩罚项Meta使用自由比特阈值(κ)来防止崩溃,仅在散度

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。