1.交大智慧能源创新学院

本文来自于上海创智学院和上海交大刘鹏飞老师团队,团队专注于构建最前沿 AI 系统核心作者来自于香港理工大学,上海交通大学,以及中国科学技术大学从 ChatGPT 到 Claude,从 Codex 到 Claude Code,全球科技公司正在 “能动性” 领域展开激烈竞争。

2.交大创新学校

这一趋势反映了产业界的关键认知:能动性能力正成为 AI 系统的核心竞争力,决定着 AI 能否从简单的对话工具演进为真正的工作伙伴具备能动性的 AI 系统将重新定义人机协作模式,成为推动各行各业智能化转型的关键技术。

3.交大创新港官方网站

什么是 “能动性”?它是 AI 系统主动发现问题、制定假设,并通过与环境和工具的自主交互执行解决方案的能力这种能力的重要性在于,它使 AI 从被动响应工具转变为主动执行的智能助手,能够独立完成复杂的知识工作任务。

4.交大创新港数字展厅

例如,让模型从零开始开发一个完整的五子棋游戏需要模型具备需求理解、架构设计、代码实现、调试优化等完整的自主执行能力这种协作编程场景代表了现代知识工作的典型需求,而具备这种能力的 AI 系统将能够承担大量现实世界的复杂任务。

5.交大创新设计中心

同样,在科研工作流程中,模型需要完成从文献调研到实验设计,从数据分析到洞察生成的完整链路能动性使 AI 能够独立推进科学研究进程,这对于加速科学发现具有重大意义能动性能力的培养难度远超传统 AI 能力,因为它要求模型具备长期规划、多步推理、工具协调和自主纠错等高阶认知能力。

6.交大创新港视频

当前主流方法普遍认为复杂的能动性能力需要大量训练数据支撑,遵循传统的规模化定律这导致了资源密集型的训练流程:收集数万甚至数十万个训练样本,消耗大量计算资源,但效果往往不尽如人意LIMI 的研究结果表明,仅使用 78 个复杂多轮交互轨迹样本,模型就能在能动性基准测试 AgencyBench 上达到开源模型的最佳表现,还超越了 GPT-5 的性能。

7.交大创新学院简介

相比使用 10,000 个样本训练的模型,LIMI 实现了 53.7% 的性能提升,数据使用量却仅为其 1/128如图展示了一个模型从头开发的完整可运行的五子棋游戏,这种端到端的自主执行能力正是未来 AI 系统的核心价值所在,证明了其在实际工作场景中的巨大应用潜力。

8.交大创新创业园

LIMI 的发现挑战了 “数据规模决定能力上限” 的传统认知,提出了能动性效率原则:模型能动性的发展更依赖于对能动性本质的理解和高质量数据的精准构造,而非简单的数据堆叠这一发现为大规模部署具备真正工作能力的 AI 系统开辟了可行路径,表明理解能动性的核心机制比盲目扩大数据规模更为重要。

创智插图创智插图1

9.交大创新港最新消息贴吧

论文标题:LIMI: Less is More for Agency论文地址:https://arxiv.org/pdf/2509.17567代码地址:https://github.com/GAIR-NLP/LIMI

10.交大智能制造研究院

数据集地址:https://huggingface.co/datasets/GAIR/LIMI模型地址:https://huggingface.co/GAIR/LIMIAgencyBench:https://agencybench.opensii.ai/

SII CLI:https://www.opensii.ai/cli/从被动响应到主动工作:能动性能力时代的到来能动性大语言模型(Agentic LLMs)的出现,那些能够推理、行动并自主交互的系统,代表着从被动 AI 助手向具备主动能力模型的范式转变。

研究团队将能动性定义为 AI 系统作为自主代理运作的新兴能力:主动发现问题、制定假设,并通过与环境和工具的自主交互执行解决方案这一根本能力标志着 “AI 能动性时代” 的到来,其驱动力来自一个关键的行业转变:迫切需要不仅会思考,更会工作的 AI 模型。

虽然当前 AI 在推理和生成响应方面表现出色,但产业界需要能够执行任务、操作工具并推动现实世界成果的能动性模型然而,能动性模型的训练面临着关键挑战当前方法普遍假设更多数据能让模型产生更强的能动性能力,遵循语言建模的传统扩展定律(scaling laws)。

这种范式导致了日益复杂的训练流程和大量资源需求,但一个根本假设仍未得到检验:模型的能动性能力是否真的需要接触大量训练数据,还是可以通过战略性方法更高效地涌现?相邻领域的新兴证据暗示了一个令人信服的替代范式。

LIMA 仅用 1,000 个精心策划的样本就实现了有效的模型对齐,而 LIMO 证明复杂数学推理能力能够从仅 817 个战略性选择的训练样本中涌现这些发现表明,战略性数据构造可能在培养复杂 AI 能力方面比数据集规模根本上更强大。

研究团队的 LIMI 给出了答案:模型的能动性能力遵循着与传统扩展方法根本不同的发展原则通过战略性聚焦协作软件开发和科学研究工作流程,这些领域涵盖了大多数知识工作场景,研究表明复杂的能动性能力可以从少量但精心构造的高质量数据中涌现。

如图 1 所示,LIMI 仅用 78 个训练样本就让模型在 AgencyBench 上达到 73.5% 的性能,不仅超越了所有基线模型,更令人震撼的是,相比使用 10,000 个样本训练的模型实现了 53.7% 的性能提升,用 128 倍更少的数据让模型获得了卓越的能动性能力,彻底颠覆了 “更多数据 = 更强能动性” 的传统认知。

创智插图2

核心领域聚焦:协作编程与科学研究工作流为了验证 LIMI 提出的战略性数据构造方法,该研究聚焦于两个需要完整能动性能力谱系并涵盖大多数知识工作场景的基本领域协作编程代表 LLMs 与人类开发者在上下文丰富环境中协作的软件开发模式。

这个领域需要:跨现有代码库的代码理解和生成,通过复杂工具生态系统的开发环境导航,通过调试和优化循环的迭代问题解决,以及技术协调的协作沟通复杂性在于对开发上下文的整体理解和在不断变化需求下的原则性决策制定。

科学研究工作流程涵盖复杂科学研究过程,包括文献搜索、数据分析、实验设计和洞察生成这些工作流程需要:对多样化信息来源进行综合,采用适当方法论的实验设计,复杂结果的数据分析和解释,以及跨不同利益相关者格式的知识沟通。

这些任务展现出显著的时间复杂性,表现为需要连贯状态跟踪和累积推理的多轮交互它们需要战略规划能力,将复杂目标分解为可管理的子目标,同时基于环境反馈适应性调整策略工具编排能力变得至关重要,因为现实世界的能动性任务需要模型协调调用多个不同工具来完成复杂任务。

如图 2 所示的用户查询示例展现了单个查询的巨大复杂性 —— 从基础到专家级递进的五子棋开发任务涵盖 Web 前端开发、数据过滤、状态管理、规则启发式 AI 和高级搜索算法等多个相互关联的子任务这种复杂性覆盖了规划、执行和协作等维度,展现了高质量演示中学习信号的密集性。

创智插图3

图 2:用户查询示例,展示了单个查询如何在规划、执行和协作维度上包含多个相互关联的子任务,证明了高质量数据中学习信号的密集性精准数据构建:战略策划的系统化方法LIMI 方法的有效性根本依赖于战略性数据构造,通过真实世界协作任务捕捉本质的能动性行为。

该研究团队围绕能动性交互的基本要素形式化数据构建过程,将每个完整交互定义为元组

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。