1.加州大学系列
前沿的人工智能模型虽然在众多任务上取得了显著进展,但研究发现,它们在组合推理 (compositional reasoning) 方面仍表现不佳,在多个经典基准测试上甚至低于随机猜测水平加州大学河滨分校Yinglun Zhu研究团队重新审视了这一问题,发现其根源之一在于评测指标本身——它系统性地低估了模型的真实能力。

2.加州大学体系
博客链接:https://yinglunz.com/blogs/ttm.html论文链接:https://arxiv.org/pdf/2510.07632代码链接:https://github.com/yinglunz/test-time-matching
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)