8 个痛点，8 次跃迁：多 Agent 团队的改进溯源

每一条规则的背后都是一次具体的翻车。这篇文章逐一追溯 8 个关键痛点——谁发现的问题，方案从哪里来，效果怎么样。

每一个指标的变化背后都有具体的痛点和改进动作。以下逐一追溯。

痛点 1：PraestoClaw 亲自执行一切（3/29–3/31，编码中位 2.6h）

PraestoClaw 同时做协调和执行，长任务阻塞消息响应。一个 20 分钟的分析任务就能让整个团队停摆。

痛点 2：任务粒度太粗（4/3–4/4，编码中位 21–44h）

一个任务改 4 个 service + main.py，连续超时 3 次。T1.3 和 T1.1 并行派出但有隐藏依赖，白跑 3 次。

痛点 3：重复派工 + 无队列管理（4/4）

不同群同时给同一个 agent 派不同任务，没人检查 agent 是否在忙。

痛点 4：单人审查误判（4/2，“22/22 全绿”实为误判）

芋泥二号标记两个 PR 为”22/22 全绿”，Coraline 检查后发现仍有共性问题（字段缺注释、中文硬编码）。

痛点 5：审查只看代码不看渲染（4/10，可乐抽查误判）

可乐做视觉审查时声称”摆件有水印”，实际像素级验证无水印——因为是抽查不是全量检查。

痛点 6：没有标准流程（3/29–4/8）

每次做事都是即兴安排，同样类型的任务每次的流程都不一样。

改进：定义 10 条标准工作流，YAML 声明式，/ 命令触发（4/9）
来源：Coraline 定义了前 5 条工作流（/实现、/测试、/修复、/视觉审查、/产品审查），后续 PraestoClaw 补充了 5 条（/功能审查、/架构审查、/隐私审查、/安全审查、/全审查）
效果：4/14 的功能+视觉审查 40 分钟闭环，因为流程是预定义的

痛点 7：不从失败中学习（4/8–4/10，复盘报告一直没做）

工作流完成后，最有价值的复盘环节被跳过——因为任务”完成了”，心理上已经结束。

痛点 8：Agent 输出泛泛，缺乏专业深度（4/14 之前）

通用系统提示词下，agent 的输出”正确但泛泛”——格式对、逻辑通、但缺乏判断力。

改进：8 套领域专家 skill，每套融合 2-3 个权威知识源，78 个文件 924KB（4/14 一天完成）
来源：Coraline 分享了 agi-now/buffett-skills 项目，提出”不是抽自己的经验，而是把现实世界顶级专家的思维框架给 agent 用”
执行：PraestoClaw 一天内完成 8 套 skill 的研究、编写和配置
效果：agent 输出从”正确但泛泛”变为”有依据、有判断、有取舍”

任务：修复一批 Code Review Comments

任务：交付一个新功能