Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Strategic Summary: Large-scale Agentic Engineering

战略总结:向 Agent 时代大规模软件系统开发做迁移

Date: 2026-03-01
Audience: Leadership, Engineering Teams


TL;DR (30 秒版本)

我们在做什么:

  • 400+ repos → 1 mono-repo
  • 人工运维 → AI 自主运维
  • 团队边界 → AI 无边界协作

为什么重要:

  • 80% 的边界是管理便利,不是真实价值
  • AI 需要全局上下文才能发挥规模效应
  • 这是生产关系革命,不是工具优化

预期收益:

  • 开发效率:10x 提升
  • 运维效率:24x 提升(小时级 → 分钟级)
  • 人类角色:从 Doer → Decider

核心洞察 (3 分钟版本)

洞察 1:开发经验的本质是生产关系

误区: 开发经验 = 怎么写代码

真相: 开发经验 = 怎么组织生产

  • 怎么分工(谁做什么,边界在哪里)
  • 怎么协作(如何交接,如何对齐)
  • 怎么验收(如何定义完成)
  • 怎么演进(如何迭代,如何重构)

Agent 时代的挑战: 生产力变了(AI 写代码),但生产关系没变(还是按团队/模块/Sprint)。

结论: 用 AI 的生产力,套传统的生产关系 = 马车装引擎


洞察 2:从“家庭联产承包“到“大机器农业“

历史类比:

时代农业软件开发
游牧 (Pre-2010)个人狩猎英雄开发者,全栈
农耕 (2010-2025)家庭联产承包团队边界,模块所有权
大机器 (2026+)土地合并 + 机械化Mono-repo + AI 集群

问题: “家庭联产承包“导致土地碎片化,大机器进不来。

解决: 土地合并(mono-repo)+ 大机器作业(AI 集群)= 10x 生产力


洞察 3:80% 的边界是“破除价值“的

边界价值分布:

20% 的边界 → 真正隔离风险(安全、合规、核心算法)
80% 的边界 → 管理便利性(绩效、进度可观测、责任划分)

问题: 为了 20% 的真实价值,我们承受了 80% 的效率损失。

AI 时代的重新评估:

  • 保留 20% 的真实边界(安全、合规)
  • 破除 80% 的管理边界(用 AI 可观测性替代)

项目背景 (5 分钟版本)

表面目标

项目:AI 驱动的运维告警与 Incident 分析
时间:2026 年 1 月启动,3 月 evaluation
目标:
  - 提升诊断速度(10x)
  - 提升诊断体验
  - 提高诊断覆盖率(>90%)

隐性目标

验证:
  - 一个 AI 团队的开发效率有多高?
  - AI 能否独立交付生产级系统?
  - AI 开发的系统是否可维护、可扩展?
  - AI 团队与传统团队的协作模式是什么?

产出:
  - 技术验证(AI 能做运维分析)✅
  - 经验验证(AI 团队能高效交付)← 当前阶段
  - 信心验证(老板敢不敢大规模推广)← 最终目标

为什么这个项目关键

这是第一个直属老板的 AI 团队项目,它的成败决定了:

  • ✅ 成功 → 老板有信心推广 AI 开发 → 更多资源 → 更大项目
  • ❌ 失败 → 老板怀疑 AI 能力 → 收缩资源 → AI 成为边缘实验

所以这不是一个运维项目,这是一个 AI 开发能力的 Proof of Concept。


技术方案 (10 分钟版本)

架构概览

┌─────────────────────────────────────────────────────────────┐
│                    Large-scale Agentic Engineering          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  OpenClaw (主脑)                                            │
│  ├─ 维护全局状态                                            │
│  ├─ 做调度决策                                              │
│  ├─ 创建子 Agent (sessions_spawn)                          │
│  └─ 重启恢复 (状态在文件)                                    │
│                                                             │
│  子 Agent 池 (临时工人)                                      │
│  ├─ 1000+ 临时 agents                                        │
│  ├─ 专注任务 (分析、迁移、守护)                              │
│  ├─ 检查点到文件                                            │
│  └─ 完成后销毁                                              │
│                                                             │
│  持久化状态 (.rd-os/)                                       │
│  ├─ progress.db (SQLite)                                   │
│  ├─ agent-states/ (JSON checkpoints)                       │
│  └─ artifacts/ (reports, outputs)                          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

关键策略

策略说明收益
Mono-Repo400+ repos → 1AI 可访问全量代码,跨模块优化
AI 主脑 + 子 AgentOpenClaw 调度 1000+ agents规模化并行,统一协调
动态资源分配价值评分,分级 (S/A/B/C)资源聚焦高价值,3-5x 利用率
AI 闭环Plan → Code → Test → Deploy人类定义问题,AI 解决问题,10x+ 效率

预期收益

短期收益 (6 个月)

指标当前目标提升
AI 完成功能0%20%-
AI 部署变更0%10%-
运维 MTTR2-4 小时<10 分钟24x
AI 处理告警0%90%-
人类 routine 工作60%30%2x

长期收益 (12 个月)

指标当前目标提升
AI 完成功能0%50%-
AI 部署变更0%40%-
AI 发现优化0500/周-
人类 routine 工作60%10%6x
工程效率1x10x10x

组织影响

人类角色转变

传统角色AI 时代角色
写代码定义问题、验收结果
Code Review审查 AI 输出、设定标准
测试定义测试策略、审查覆盖率
运维定义 SLO、审查 AI 决策
项目经理定义优先级、审查进度

核心转变:从 Doer 到 Decider

管理挑战

挑战应对
团队抵触渐进式推广 + 培训
绩效评估困难重新定义评估标准(从 Doer 到 Decider)
知识流失AI 文档化 + 知识沉淀

风险与应对

技术风险

风险概率影响应对
AI 输出质量不稳定人类审查 + 自动化测试
AI 系统故障状态持久化 + 恢复机制
AI 成本超预算监控 token 使用 + 优化 (~$500/年)

组织风险

风险概率影响应对
团队抵触渐进式推广 + 培训
绩效评估困难重新定义评估标准
老板信心不足快速交付小胜利

时间线

2026-01 ──► AI 团队组建(运维 Incident 分析)
    │
2026-03 ──► Evaluation(运维项目)
    │         10-repo 实验 ✅
    │
2026-03 ──► Phase 2: 基础设施搭建
    │
2026-04 ──► Phase 3: 400-repo 分析
    │
2026-04 ──► Phase 4: P0 迁移(50 repos)
    │
2026-05 ──► Phase 4: P1 迁移(100 repos)
    │
2026-06 ──► Phase 4: P2-P3 迁移(150 repos)
    │
2026-07 ──► Phase 5: AI 闭环开发
    │
2026-12 ──► Phase 6: 全面优化
              AI 完成功能 >50%
              人类 routine 工作 <10%

行动建议

对于技术团队

  • 开始 Mono-Repo 规划(土地合并)
  • 建设 AI 基础设施(大机器)
  • 培养 AI 协作能力(新技能)

对于管理层

  • 重新评估边界价值(哪些该破除)
  • 重新定义绩效标准(从 Doer 到 Decider)
  • 投资 AI 基础设施(长期收益)

对于老板

  • 给 AI 团队真实业务场景(不是边缘实验)
  • 设定合理期望(6-12 个月见效)
  • 准备组织变革(生产关系调整)

关键文档

文档说明
migrate-to-agent-age.md战略宣言:从传统到 Agent 时代
PROJECT-CHARTER.md项目章程(包含组织影响)
rd-os-vision.mdRD-OS 愿景
rd-os-openclaw-architecture.mdOpenClaw 架构
experiment-report.md10-repo 实验报告

最终愿景

2027 年,回顾今天:

我们不是"引入了 AI 工具"
我们不是"优化了开发流程"

我们完成了:
  - 从农耕到游牧的生产关系变革
  - 从碎片化到规模化的生产力革命
  - 从 Doer 到 Decider 的人类角色转变

我们不是"用 AI 写代码"
我们是"用 AI 重新定义软件开发"

Strategic Summary: Large-scale Agentic Engineering
2026-03-01 | For: Leadership, Engineering Teams