目录:
1.微软的测试人员和开发人员的比例
2.微软砍掉测试部门
3.微软 测试部门
4.微软测试部门取消
5.微软扩招
6.微软有测试岗位吗
7.微软拓展
8.微软拓展发布会
9.微软测试开发比例
10.微软测试团队
1.微软的测试人员和开发人员的比例
如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。
2.微软砍掉测试部门
这听起来像是一个完美的免费午餐:只要能在推理时动态分配更多计算资源,就能让模型的智商原地起飞但问题来了:我们该怎么让 LLM「多想」?好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?
3.微软 测试部门
更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题究竟哪个 TTS 策略才是那个「天选之子」?为了结束这场盲人摸象般的争论,微软终于出手了他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。

4.微软测试部门取消
论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008
5.微软扩招
这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。
6.微软有测试岗位吗
下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究测试时扩展方法简介LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的。

7.微软拓展
并行扩展策略通过聚合多个独立采样的推理路径的答案来提升性能Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。
8.微软拓展发布会
Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止序列扩展策略通过迭代式的修正、重启或回溯来扩展推理深度思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。
9.微软测试开发比例
思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。
10.微软测试团队
混合扩展策略该策略融合了以上两个维度Meta-Reasoner


评论(0)