1.杜克大学视频

研究概要:杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。

2.杜克大学宣传片

实验结果显示,即使是最先进的模型在该基准上的成功率仍低于 60%,揭示了当前 LLM Agent 在实际部署中面临的关键挑战通过细粒度的失败模式分析与 Token 效率分析,研究为提升 Agent 的 MCP 工具调用能力与 token 利用效率提供了明确的改进方向。

3.杜克大学video essay

第一作者是杜克大学的博士生 Ming Yin, 导师是 Yiran Chen 教授该工作是在 zoom 实习期间完成

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注(插图

4.杜克大学 ap

论文链接:https://arxiv.org/pdf/2508.157601. 研究背景与动机MCP 的兴起:外部工具交互能力已成为 AI Agent 的核心,使其能够超越静态知识,动态地与真实世界交互。

5.杜克大学校园

Model Context Protocol (MCP) 的出现标准化了模型与工具的集成现有评测的局限:当前基准多聚焦于单步工具调用、合成环境或有限工具集,无法捕捉真实场景的复杂性和动态性在实际应用中,代理必须与可能随时间变化响应的实用工具交互,跨越完全不同的领域。

6.杜克大学官网

用户查询的复杂性:现实中的用户查询往往带有细致的上下文和特定约束,需要跨越多次工具调用的精确推理才能完成任务这要求代理不仅知道使用哪个工具,还要知道何时以及如何在不断演变的任务状态中组合这些工具评测挑战:理解代理在现实、时间演进的生产环境中为何失败,能够为改进相应的模型和系统架构提供宝贵见解。

7.杜克大学百度百科

然而,现有基准无法完全揭示当前代理系统在真实生产环境部署时的差距2. 基准与方法2.1 任务集共 101 个高质量任务,经多轮 LLM 改写与人工审校;覆盖 41 个 MCP 服务器、260 个工具;分为 Easy, Medium, Hard 三档难度,涵盖从基础工具调用到复杂多步推理的任务。

杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注(插图1杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注(插图2

8.杜克大学最新消息

2.2 执行计划生成与验证Reference Agent

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。