增量检查点：长工作流可靠性的下一步

一个 20 步的工作流在第 18 步挂了。你是重跑全部 20 步，还是从第 18 步恢复？答案取决于你的检查点策略。

问题#

长工作流（10+ 步骤、跨越数分钟到数小时）面临的核心可靠性问题：

LangGraph v1.2 alpha 引入的 DeltaChannel 是一种新的 state channel 类型：

不再每步保存完整状态，而是只存储相对于上一个检查点的变更增量（delta）。

恢复时，从最近的完整快照开始，依次 apply 后续的 delta，重建到中断点的状态。

1
Checkpoint 0 (full) → Δ1 → Δ2 → Δ3 → Checkpoint 4 (full) → Δ5 → Δ6 → ...

周期性做一次全量快照（compaction），避免 delta 链过长。

DeltaChannel 解决存储问题，但可靠性还需要两个配套机制：

1
node_config:
2
  run_timeout: 60s    # 执行超时
3
  idle_timeout: 30s   # 无输出超时

每个节点独立超时，不再是工作流整体一个超时。API 调用节点给 30 秒，代码生成节点给 5 分钟——按需分配。

当节点失败时，不是直接抛出终止整个工作流，而是触发该节点的补偿逻辑：

这是分布式系统中 Saga pattern 在 agent 工作流中的应用。

如果你在构建多步骤的 agent 工作流系统：

另一个细节：当系统需要停止一个正在运行的工作流时（部署更新、资源回收），不是直接 kill，而是：

下次启动时从检查点恢复，而不是重跑。

这对于运行时间长（几小时）的 agent 工作流尤其重要——你不希望一次部署导致所有正在执行的任务从头开始。