Strategic Summary: Large-scale Agentic Engineering

战略总结：向 Agent 时代大规模软件系统开发做迁移

Date: 2026-03-01
Audience: Leadership, Engineering Teams

TL;DR (30 秒版本)

我们在做什么：

400+ repos → 1 mono-repo
人工运维 → AI 自主运维
团队边界 → AI 无边界协作

为什么重要：

80% 的边界是管理便利，不是真实价值
AI 需要全局上下文才能发挥规模效应
这是生产关系革命，不是工具优化

预期收益：

开发效率：10x 提升
运维效率：24x 提升（小时级 → 分钟级）
人类角色：从 Doer → Decider

核心洞察 (3 分钟版本)

洞察 1：开发经验的本质是生产关系

误区： 开发经验 = 怎么写代码

真相： 开发经验 = 怎么组织生产

怎么分工（谁做什么，边界在哪里）
怎么协作（如何交接，如何对齐）
怎么验收（如何定义完成）
怎么演进（如何迭代，如何重构）

Agent 时代的挑战： 生产力变了（AI 写代码），但生产关系没变（还是按团队/模块/Sprint）。

结论： 用 AI 的生产力，套传统的生产关系 = 马车装引擎

洞察 2：从“家庭联产承包“到“大机器农业“

历史类比：

时代	农业	软件开发
游牧 (Pre-2010)	个人狩猎	英雄开发者，全栈
农耕 (2010-2025)	家庭联产承包	团队边界，模块所有权
大机器 (2026+)	土地合并 + 机械化	Mono-repo + AI 集群

问题： “家庭联产承包“导致土地碎片化，大机器进不来。

解决： 土地合并（mono-repo）+ 大机器作业（AI 集群）= 10x 生产力

洞察 3：80% 的边界是“破除价值“的

边界价值分布：

20% 的边界 → 真正隔离风险（安全、合规、核心算法）
80% 的边界 → 管理便利性（绩效、进度可观测、责任划分）

问题： 为了 20% 的真实价值，我们承受了 80% 的效率损失。

AI 时代的重新评估：

保留 20% 的真实边界（安全、合规）
破除 80% 的管理边界（用 AI 可观测性替代）

项目背景 (5 分钟版本)

表面目标

项目：AI 驱动的运维告警与 Incident 分析
时间：2026 年 1 月启动，3 月 evaluation
目标：
  - 提升诊断速度（10x）
  - 提升诊断体验
  - 提高诊断覆盖率（>90%）

隐性目标

验证：
  - 一个 AI 团队的开发效率有多高？
  - AI 能否独立交付生产级系统？
  - AI 开发的系统是否可维护、可扩展？
  - AI 团队与传统团队的协作模式是什么？

产出：
  - 技术验证（AI 能做运维分析）✅
  - 经验验证（AI 团队能高效交付）← 当前阶段
  - 信心验证（老板敢不敢大规模推广）← 最终目标

为什么这个项目关键

这是第一个直属老板的 AI 团队项目，它的成败决定了：

✅ 成功 → 老板有信心推广 AI 开发 → 更多资源 → 更大项目
❌ 失败 → 老板怀疑 AI 能力 → 收缩资源 → AI 成为边缘实验

所以这不是一个运维项目，这是一个 AI 开发能力的 Proof of Concept。

技术方案 (10 分钟版本)

架构概览

┌─────────────────────────────────────────────────────────────┐
│                    Large-scale Agentic Engineering          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  OpenClaw (主脑)                                            │
│  ├─ 维护全局状态                                            │
│  ├─ 做调度决策                                              │
│  ├─ 创建子 Agent (sessions_spawn)                          │
│  └─ 重启恢复 (状态在文件)                                    │
│                                                             │
│  子 Agent 池 (临时工人)                                      │
│  ├─ 1000+ 临时 agents                                        │
│  ├─ 专注任务 (分析、迁移、守护)                              │
│  ├─ 检查点到文件                                            │
│  └─ 完成后销毁                                              │
│                                                             │
│  持久化状态 (.rd-os/)                                       │
│  ├─ progress.db (SQLite)                                   │
│  ├─ agent-states/ (JSON checkpoints)                       │
│  └─ artifacts/ (reports, outputs)                          │
│                                                             │
└─────────────────────────────────────────────────────────────┘

关键策略

策略	说明	收益
Mono-Repo	400+ repos → 1	AI 可访问全量代码，跨模块优化
AI 主脑 + 子 Agent	OpenClaw 调度 1000+ agents	规模化并行，统一协调
动态资源分配	价值评分，分级 (S/A/B/C)	资源聚焦高价值，3-5x 利用率
AI 闭环	Plan → Code → Test → Deploy	人类定义问题，AI 解决问题，10x+ 效率

预期收益

短期收益 (6 个月)

指标	当前	目标	提升
AI 完成功能	0%	20%	-
AI 部署变更	0%	10%	-
运维 MTTR	2-4 小时	<10 分钟	24x
AI 处理告警	0%	90%	-
人类 routine 工作	60%	30%	2x

长期收益 (12 个月)

指标	当前	目标	提升
AI 完成功能	0%	50%	-
AI 部署变更	0%	40%	-
AI 发现优化	0	500/周	-
人类 routine 工作	60%	10%	6x
工程效率	1x	10x	10x

组织影响

人类角色转变

传统角色	AI 时代角色
写代码	定义问题、验收结果
Code Review	审查 AI 输出、设定标准
测试	定义测试策略、审查覆盖率
运维	定义 SLO、审查 AI 决策
项目经理	定义优先级、审查进度

核心转变：从 Doer 到 Decider

管理挑战

挑战	应对
团队抵触	渐进式推广 + 培训
绩效评估困难	重新定义评估标准（从 Doer 到 Decider）
知识流失	AI 文档化 + 知识沉淀

风险与应对

技术风险

风险	概率	影响	应对
AI 输出质量不稳定	高	中	人类审查 + 自动化测试
AI 系统故障	中	高	状态持久化 + 恢复机制
AI 成本超预算	低	中	监控 token 使用 + 优化 (~$500/年)

组织风险

风险	概率	影响	应对
团队抵触	高	高	渐进式推广 + 培训
绩效评估困难	高	中	重新定义评估标准
老板信心不足	中	高	快速交付小胜利

时间线

2026-01 ──► AI 团队组建（运维 Incident 分析）
    │
2026-03 ──► Evaluation（运维项目）
    │         10-repo 实验 ✅
    │
2026-03 ──► Phase 2: 基础设施搭建
    │
2026-04 ──► Phase 3: 400-repo 分析
    │
2026-04 ──► Phase 4: P0 迁移（50 repos）
    │
2026-05 ──► Phase 4: P1 迁移（100 repos）
    │
2026-06 ──► Phase 4: P2-P3 迁移（150 repos）
    │
2026-07 ──► Phase 5: AI 闭环开发
    │
2026-12 ──► Phase 6: 全面优化
              AI 完成功能 >50%
              人类 routine 工作 <10%

行动建议

对于技术团队

开始 Mono-Repo 规划（土地合并）
建设 AI 基础设施（大机器）
培养 AI 协作能力（新技能）

对于管理层

重新评估边界价值（哪些该破除）
重新定义绩效标准（从 Doer 到 Decider）
投资 AI 基础设施（长期收益）

对于老板

给 AI 团队真实业务场景（不是边缘实验）
设定合理期望（6-12 个月见效）
准备组织变革（生产关系调整）

关键文档

文档	说明
migrate-to-agent-age.md	战略宣言：从传统到 Agent 时代
PROJECT-CHARTER.md	项目章程（包含组织影响）
rd-os-vision.md	RD-OS 愿景
rd-os-openclaw-architecture.md	OpenClaw 架构
experiment-report.md	10-repo 实验报告

最终愿景

2027 年，回顾今天：

我们不是"引入了 AI 工具"
我们不是"优化了开发流程"

我们完成了：
  - 从农耕到游牧的生产关系变革
  - 从碎片化到规模化的生产力革命
  - 从 Doer 到 Decider 的人类角色转变

我们不是"用 AI 写代码"
我们是"用 AI 重新定义软件开发"

Strategic Summary: Large-scale Agentic Engineering
2026-03-01 | For: Leadership, Engineering Teams

Keyboard shortcuts

Agentic Engineering Documentation