目录:
1.ai智能交互授课
2.多智能体交互
3.ai智能交互什么意思
4.ai智能体育训练
5.智能体交互动作的总收益和损失可以小于或大于零
6.ai智能体验中心
7.ai智能教学机器人
8.ai智能教学体系的好处
9.ai智能交互
10.ai智能体验
1.ai智能交互授课
假如你雇佣了一支24小时轮班的工程师团队,要求他们一起开发一款复杂应用但有一个奇怪规定:每位工程师一上班就完全忘记上一班做过什么,只能从零开始重新干无论他们技术多强,工作多努力,这个项目恐怕也做不成而这正是「长期运行智能体」在现实中遭遇的真实困境:
2.多智能体交互
「上下文窗口一关,AI就失忆」模型没有真正的长期记忆,所有判断都依赖当下能看到的文本片段,上下文窗口一满或被关掉,就像白板被擦掉一样这种「记忆缺陷」,让智能体做不了长工程,一旦任务需要持续数小时、跨越多轮对话窗口时,这样的问题就会暴露出来。
3.ai智能交互什么意思
由于上下文窗口有限,而大多数复杂项目无法在单一窗口完成,因此智能体必须找到一种能够跨越多轮编码会话的有效机制近日,Anthropic通过「偷师」人类工程师,形成了一套适用于长期运行智能体的有效框架

4.ai智能体育训练
https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents双智能体架构模仿人类优秀工程师的日常习惯
5.智能体交互动作的总收益和损失可以小于或大于零
Claude Agent SDK是一个强大而通用的智能体框架,它不仅擅长编码,还能查资料、调工具、规划步骤、执行任务它拥有上下文管理能力,比如上下文压缩(compaction),能让智能体在不耗尽上下文窗口的前提下继续干活。
6.ai智能体验中心
但仅靠上下文压缩还不够在开箱即用的情况下,即使Opus 4.5这样顶级的编码模型,如果只给它一个「去做一个claude.ai的克隆网页」这样的模糊大指令然后让它在SDK里跨多个上下文窗口反复执行,它依然很难完成一个真正能上线的Web应用。
7.ai智能教学机器人
在这个过程中,Claude经常会出现两类常见的失败模式:第一种,它经常一次试图做太多事比如,一次性把整个应用写完结果常常中途耗尽上下文,留下未完成、无文档的半成品功能,进入下一次会话时,就不得不猜测之前发生了什么。
8.ai智能教学体系的好处
第二种,错误判断「项目已完成」这通常出现在项目后期当一些功能已经实现时,后来启动的智能体往往会扫瞄现有成果,然后直接宣布项目已经完成为了解决这个问题,研究人员将问题拆成两部分:第一步,需要在初始环境中搭建好提示词要求的全部功能基础,让智能体能按步骤、按功能推进。
9.ai智能交互
第二步,每次会话中的智能体必须每次推进一小步,同时将环境保持在「干净状态」即能随时安全合并到主分支:没有明显bug、代码整洁、有清晰文档,开发者随时可以继续加新功能按照这种思路,Anthropic为Claude Agent SDK设计了一个双组件方案:。
10.ai智能体验
初始化智能体(Initializer Agent)第一次会话用一个专门提示词,让模型设置初始环境:生成init.sh脚本、claude-progress.txt工作日志文件,以及一个初始Git提交编码智能体(Coding Agent)。
在后续会话中接手工作,每次只推进一小步,并为下一轮工作留下清晰信息这种模式的关键突破点在于找到一种方式,让每次会话在没有历史上下文的情况下也能快速理解当前项目状态,而claude-progress.txt文件与Git历史正好能做到这点。
这一灵感来自优秀软件工程师的日常工作习惯环境管理「三板斧」如何让「接班」的智能体快速上手?初始化智能体要搭建好所有未来编码会话需要的环境上下文,包括功能清单(Feature List)、渐进式推进(Incremental Progress)、测试(Testing)。
功能列表为避免智能体一次性写完整个应用或过早宣布项目完成,研究人员让初始化智能体将用户的初始提示,扩展成一个完整的功能需求文件例如,在claude.ai克隆示例中,它写出了超过200个功能,如「用户可以打开新对话、输入消息、按下Enter,并看到AI回复」。
这些功能一开始都标记为「failing」,让后续智能体清楚还有哪些功能没完成。

研究人员要求编码智能体只能修改passes字段的状态,并明确强调:「不允许删除或修改测试,否则可能导致功能缺失或出现bug」反复试验,研究人员最终选用JSON格式,这是因为比起Markdown文件,AI更不容易误删或覆盖JSON内容。
渐进式推进在初始环境搭建好之后,编码智能体会被要求一次只做一个功能的小步骤改动这种渐进式推进,对于解决智能体一次做太多事的问题非常关键同时,每次修改后保持环境的「干净」也很重要实验发现,最有效的方法是要求模型把改动通过描述性的信息提交到Git,并在progress文件中总结进展。
这样,模型就能方便地回滚错误改动,恢复稳定代码状态这些方式能够大幅提升效率,因为智能体不再需要花大量时间猜测之前发生了什么测试此外,研究人员还观察到一个大问题:Claude经常在没有充分测试的情况下,把功能标记为完成。
这是因为,如果不提供明确指令和工具,Claude的「测试行为」大多会停留在「代码层面」,而不是「完整用户流程层面」比如,它会改代码、跑单元测试、甚至用curl测一下开发服务器,但这些操作只能证明「代码大致能跑」,并不能保证整个用户操作流程从头到尾是顺畅可用的。
如果我们明确要求它使用浏览器自动化工具,并像真实用户一样进行端到端测试,它在Web应用场景中通常表现得很好,很多原本容易漏掉的bug都能被发现出来。

Claude通过Puppeteer MCP服务器在测试claude.ai克隆版时截取的屏幕截图因为很多问题只有在「真实运行、真实点击」时才会暴露,而不是从代码文本上就能看出来当然仍有一些限制,比如模型本身的视觉能力有限,浏览器自动化工具无法识别所有场景。
比如,通过Puppeteer MCP,Claude现在看不到浏览器自带的alert弹窗对于那些「点一下按钮就弹个原生alert,再根据用户点击决定后续行为」的功能,Claude在自动化测试时就很难完整覆盖,也更容易出问题。
快速上手通过上述机制,每次编码智能体启动时都会先执行一套简单但实用的步骤:运行


评论(0)