1.新剑桥模型

大模型也有「EMO」时刻比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为:。

2.剑桥 dac magic

思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。近日,剑桥大学等机构的一项研究对这些「翻车」现象作出解释,研究者认为:问题不在于大模型的推理能力,而在于其执行计划的能力。

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了(插图

3.剑桥的真题模拟评测

边际收益递减的错觉:衡量大语言模型的长时程任务执行能力https://arxiv.org/pdf/2509.09677

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。