第 8 部分：建立团队标准

前七部分的所有内容对一个开发者都有效。一旦涉及团队，一个额外的失败模式就会出现：工作套件（harness）漂移。一个人的规则文件说一件事，另一个人的说另一件事，智能体行为在团队中无法复现，规范悄悄侵蚀。本部分讲的是如何将这套工作流变成一个共享的、持久的标准。

需要牢记的底层原则：AI 放大了它所落地的工程文化。 一个有着完善测试、清晰标准和健康审查文化的团队，能从这些工具中获得巨大收益。一个没有这些的团队，只是在更快地制造问题。标准化的目的，就是让优秀文化成为阻力最小的路径。

把工作套件当作代码来对待

规则文件、系统提示词、评估套件和技能库不是个人配置——它们是共享基础设施。像对待代码一样对待它们：

随项目进行版本管理。
像对待任何其他改动一样，在 Pull Request 中审查。
指定命名负责人，让它们被有意地维护，而不是悄然腐化。

没有这些，每个开发者的智能体行为略有不同，没有人能复现别人的结果。

以评估而非 Demo 作为门禁

一个能运行的 Demo 证明智能体能成功一次。一个通过的评估套件证明它能可靠地成功。两者不是一回事，凭借 Demo 的表现来发布，是不可靠的智能体进入生产的方式。

把评估覆盖作为发布的前提条件，就像你以测试覆盖率来把控一个服务一样。但没有明确评分标准的评估什么都衡量不了——所以要定义你在评分什么：

任务成功率
工具使用质量
轨迹合规性
幻觉率
响应质量

一个 CI 门禁让这变成现实：

# ci: block merge if the agent's eval suite regresses
agent-evals:
  run: eval-suite --rubric rubric.yaml --min-score 0.9
  on: [pull_request]
  required: true

为生成代码重塑代码审查

生成的代码需要和人类代码同等甚至更严格的审查——审查者需要了解它特有的失败模式。培训他们识别幻觉依赖、薄弱的错误处理，以及乍看无误但实则有误的正确性缺口（第 5 部分）。根据这些模式调整审查清单，而不是照搬旧的人类代码审查清单不加改动。

明确划定原型与生产的边界

快速、松散的探索和严谨、规范的生产工作都是合理的——但前提是每个人都知道当前处于哪种模式。明确划定这条边界：

哪些代码库是生产环境 vs. 沙盒。
哪些分支需要执行完整的规范。
智能体的输出能够触达哪些环境。

团队若对此模糊不清，就会产出意外上线的原型。一条书面边界能让探索保持快速，同时让生产保持安全。

一次性构建工作套件，持续打磨完善

可复用的提示词、技能库、工具连接和评估套件，能在多个项目中产生复利。从 AI 开发中获益最多的团队，是那些一次性构建好这套共享的工作套件并持续改进的团队，而不是每个人各自从头重建。把它当作基础设施：有文档、有人维护、被有意识地改进。

招聘与晋升时注重判断力

随着实现工作变得越来越廉价，瓶颈转移到了规格说明能力、评估能力和架构判断力。未来几年最有价值的工程师，是那些能够很好地指挥智能体的人——而不是那些能敲最多代码的人。在招聘、定级和人才培养上反映这一点：重视规格说明能力、评估严谨性和系统设计能力，而不仅仅是原始的实现速度。

最强的设置是有意为之的混合模式：人类设定方向，智能体来实现，清晰的交接协议管控边界。代码审查、值班和团队结构都会演进，将智能体作为参与者而非单纯的工具来对待。

搭建你自己的工作流

将规则文件、提示词、评估套件和技能移入代码库；要求对改动进行 PR 审查。
为共享工作套件指定一名负责人。
添加一个 CI 门禁，当评估套件低于阈值时阻止合并。
为生成代码的失败模式编写一页审查指南。
记录原型与生产的边界：代码库、分支、环境。
在下次招聘中，增加一个规格说明与评估练习，而不仅仅是编码测试。

来源：The New SDLC With Vibe Coding（Google）— https://www.kaggle.com/whitepaper-the-new-SDLC-with-vibe-coding

把工作套件当作代码来对待​

以评估而非 Demo 作为门禁​

为生成代码重塑代码审查​

明确划定原型与生产的边界​

一次性构建工作套件，持续打磨完善​

招聘与晋升时注重判断力​

搭建你自己的工作流​