在人工智能的广阔世界里,我们早已习惯了LLM智能体在各种任务中大放异彩但有没有那么一瞬间,你觉得这些AI“牛马”还是缺了点什么?没错,它们缺少的是我们人类最宝贵的职场技能:经验的积累和持续的自我进化想象一下:你入职第一天,对公司一无所知,只能依靠在学校中学习到的知识,工作中犯了错也无法吸取教训,第二次遇到同样的问题,你还得从头再来。
听起来是不是很像一个会失忆的工具人?这就是现有LLM智能体在处理现实世界“长程任务”(Long-Horizon Tasks)时面临的巨大挑战为了彻底解决这一“职场尴尬”,来自上海人工智能实验室及合作机构的研究者们,提出了一套全新的智能体框架——。
MUSE(Memory-Utilizing and Self-Evolving,记忆利用和自我演化),让智能体在“职场”中不断进化,成为真正的“职场新星”,实现“干中学”(Learning on the Job)。

下面的视频展现了一个模拟人类项目经理对公司项目issue进行管理的例子,可以看到MUSE在包括GitLab,Plane在内的多个软件平台来回跳转操作,最终在没有任何人类介入的情况下完成了这个任务。

目前, MUSE的论文与代码已经完成了开源(链接见文末)MUSE:三步走,打造AI“职场新星”MUSE的核心理念,是为LLM智能体构建一个“经验驱动、自我演化”的闭环系统,用“测试时学习”范式一次性解决“静态参数 无法进化 长程任务”三大痛点。
这个系统围绕一个分层记忆模块(Hierarchical Memory Module)展开。简单来说,MUSE让智能体像人类一样:先做、再反思、然后进化。

△MUSE框架第一步:告别“健忘症”——分层记忆模块(Memory Module)传统LLM智能体之所以被称为“失忆的执行者”,就是因为它们没有长期记忆,无法保留和应用历史知识而MUSE 框架为智能体装上了“大脑中枢”——一个能组织。
不同层级经验的记忆模块这些经验包括:Strategic Memory:保存“困境-策略”对,全局加载到系统提示,指导宏观行为范式Procedural Memory:按“应用→SOP 索引→详细步骤”三级组织,成功子任务轨迹实时沉淀为自然语言标准作业程序;轻量级索引常驻上下文,详情按需检索。
Tool Memory:静态描述 动态指令双组件,为每个基础工具提供“肌肉记忆”,用后立即更新MUSE能够利用这些经验来规划和执行跨应用的复杂任务,从而解决现有智能体在动态规划、经验积累和持续学习方面的难题。
第二步:“事后诸葛亮”——自主反思(Self-Reflection)这是MUSE最“类人”的机制在每完成一个子任务之后,MUSE的智能体不会立即进行下一个任务,而是会自主地对它的执行轨迹进行反思这种反思机制,就像是AI在给自己做“工作总结与复盘”。
它会评估子任务的执行结果: 成功了还是失败了?它会把原始的执行轨迹(Raw Trajectory)自动转化为结构化的经验(Structured Experience)如果成功,就会提炼出高效的操作序列作为新的 SOP(标准操作程序)。
它甚至拥有“第二次机会”机制: 如果第一次尝试失败,它有一次重试机会(无需检索,鼓励探索),如果再次失败,才会触发重新规划第三步:超越“静态参数”——持续自我演化(Self-Evolution)通过持续的“规划 → 执行 → 反思 → 提取经验”的四步闭环循环,MUSE 实现了真正的。
自我演化这些积累的经验会被整合回记忆模块,不断优化智能体未来的规划和执行策略这意味着:MUSE的性能会随着它自主积累的经验越来越多而持续提高实验结果:智能体的“职场”表现MUSE 框架在一系列实验中展示了令人振奋的能力:。
SOTA表现和降维打击在专为长期生产力任务设计的基准测试TAC (TheAgentCompany)


评论(0)