GUI Agent 的按需算力分配：不是每一步都需要大模型

80% 的 GUI 操作是”点下一步”、“输入已知值”、“关闭弹窗”。用 Claude Opus 处理这些和用手枪打蚊子一样。

现状的浪费#

当前 GUI agent（如 computer-use 模式）的计算分配策略是”每一步都用同一个大模型”。无论是：

还是：

都在烧同样的 token 和延迟。

[arXiv:2604.27151] 提出 event-driven step-level cascade：

1
默认：小模型（快速、便宜）
2
          │
3
          ├── Stuck Monitor 检测到进展停滞 → 升级大模型
4
          │
5
          └── Milestone Monitor 检测到语义检查点 → 升级大模型

两个触发器：

检测 agent 是否陷入循环：

触发时将控制权交给大模型，让它重新分析全局状态、制定新策略。

检测是否到达关键决策点：

这些时刻需要更强的推理能力确保不出错。

GUI 操作的错误分布极不均匀：

把计算预算集中在高风险步骤，其余用最小模型完成，总体准确率不降反升——因为省下的预算可以给关键步骤更多 thinking token。

这个模式不限于 GUI agent，对任何多步骤 agent 都适用：

核心思想：算力分配应该是动态的，由运行时信号驱动，而不是静态配置。