摘要

AI 正在重塑谁来完成工作，而不仅仅是工作在哪里发生。智能体起草合同、分诊患者、处理发票、撰写报告。革命已经到来。但当智能体 A 调用智能体 B 再调用智能体 C，跨越三个组织时，没有人能说清发生了什么、花费了多少、数据是否被正确处理。

这不是一个功能缺口，而是一个品类缺口：与复式记账法之于商业、TLS 之于互联网、容器标准之于软件部署同类的缺口。

七股独立的力量（监管、经济、安全、法律、环境、地缘政治、企业）正在汇聚到同一个需求：标准化的智能体问责。它们之间并无协调，但都需要同样的基础设施。

本书追溯这一规律：世界已经改变，基础设施中存在空白，历史表明这种空白总会被填补，而智能体经济需要的是一个特定的七层技术栈。它审视必须同步发生的转型（组织、人才、政府、经济），并展望当基础设施就位后工作将呈现的面貌。

问责层终将被建成。问题在于，它是作为一个连贯的技术栈被有意设计，还是由互不兼容的补丁拼凑而成。

第 1 章

世界已经改变

每隔十年，一次结构性变革就会重塑经济的底层逻辑。互联网将分发成本压缩至趋近于零。云计算让基础设施变成了按需计费的变量。移动互联网把一台计算机放进了每个人的口袋。每一次变革都催生出新的垄断、新的机遇和新的依赖关系。

AI 是下一次结构性变革，但它打破了以往的规律，而且这种偏离意义深远。过去的每一次变革改变的是工作发生的地点，或者基础设施的成本。AI 改变的是谁来做这些工作。那些过去必须依赖人类专家完成的任务（合同审查、数据分析、临床文档撰写、代码生成）现在由软件来执行。这不是假设，而是已经在生产环境中大规模运行、产出真实成果、被真正的专业人士所依赖的现实。从”AI 作为工具”到”AI 作为劳动者”的转变，并非渐进式的改良，而是结构性的跃迁。

支撑这一转变的生态系统已经规模庞大，并且还在加速扩张。开发者通过对话就能构建完整的应用程序。多智能体框架在组织边界之间协调专业化的 AI 工作者。由数百家机构支持的互操作协议正在为智能体经济建立通信标准。AI 作为劳动者的基础设施此刻正在被公开搭建，由数以千计独立团队各自推进，而他们或许尚未意识到，自己正在共同构建同一件事物。

这次不一样的变革

大约每隔十年，就会出现一次结构性变革，彻底重塑经济的底层逻辑。不是一款新产品，也不是一项新功能，而是底层基础设施的根本性转变，使全新类别的工作成为可能。如果你留心观察，这个规律惊人地一致。

反复上演的规律

互联网带给我们的远不止电子邮件。它将信息分发的成本压缩到几乎为零。在互联网出现之前，要触达一百万人，你需要一张广播执照、一台印刷机，或者与大型零售商签订分销协议。互联网出现之后，你只需要一台服务器和一个域名。

那些理解了这一点的公司建立了商业帝国。亚马逊没有发明零售业，它消除了地理的限制。谷歌没有发明信息检索，它让整个互联网可以被免费搜索。eBay 没有发明拍卖，它让任何人可以在任何地方向任何人出售任何东西。

但互联网同样也摧毁了帝国。Borders 书店、百视达、Tower Records、柯达。这些不是由无能之人经营的糟糕公司。它们是优秀的公司，只是它们的全部价值主张，即在实体地点策划和分发实体商品，在不到十年的时间里变得毫无意义。结构性变革不会在乎它们的季度财报或品牌资产。

云计算遵循了同样的轨迹。AWS 在 2006 年上线，大多数人并未在意。EC2 是一个奇怪的实验：谁会把自己的生产负载托付给别人的计算机？答案是：所有人。与其花五万美元购买服务器、安装到数据中心的机架上、雇佣系统管理员维护它们、然后祈祷凌晨三点什么都别坏，不如在三十秒内启动一台虚拟机，每小时只需 0.10 美元。创办一家科技公司的门槛从数百万美元降低到一张信用卡。Salesforce 凭借”软件应该租用而非购买”这一洞见，构建了一家市值两千亿美元的公司。Netflix 将整个流媒体基础设施迁移到 AWS，成为了那个十年最具统治力的媒体公司。Slack、Stripe、Twilio，这些都是云原生公司，在前一个时代根本不可能存在。

移动互联网完成了三重奏的最后一环。iPhone 在 2007 年发布，将一台计算机放进了每个人的口袋。到 2015 年，通过手机访问互联网的人数已经超过了桌面端。没有内置 GPS 的智能手机，Uber 不可能存在。没有人人口袋里都有的摄像头，Instagram 不可能存在。微信把一个即时通讯应用变成了中国人日常生活的操作系统：支付、打车、点餐、挂号，无所不包。

每一次变革都遵循着相同的轨迹：基础设施的结构性转变创造出新的价值类别，催生出新的垄断，在短期内实现了准入的民主化，然后在长期中走向权力的集中。先行者获利。平台拥有者获利更多。其他所有人沦为租户。

时代	变化的核心	赢家	输家
互联网	分发成本趋近于零	谷歌、亚马逊、eBay	Borders、百视达、印刷媒体
云计算	基础设施成本变为可变成本	AWS、Salesforce、Stripe	本地部署厂商、Oracle 授权模式
移动互联网	计算变得无处不在	苹果、Uber、Instagram	黑莓、纯桌面端软件
AI	智能成本变为可变成本	？？？	？？？

最后一行的问号并非修辞手法。那些将在 AI 时代称霸的公司尚未完全浮出水面，而那些将被它摧毁的公司，此刻还浑然不知。

但与此前每一次变革不同的是，AI 改变的既不是工作发生的地点，也不是基础设施的成本。它改变的是更为根本的东西。

取代的是劳动者，而非工作场所

上述每一次基础设施变革都是在搬运工作。互联网把商业从店铺搬到屏幕。云计算把服务器从地下室搬到数据中心。移动互联网把计算从桌面搬到口袋。

AI 不搬运工作。它取代劳动者本身。

这不是一个微妙的区分。这是规律的根本性断裂，而大多数人尚未真正内化它的含义。

当 AWS 推出时，它并没有取代系统管理员，而是改变了系统管理员的工作内容。他们不再安装物理服务器，而是配置虚拟机。他们不再监控硬件，而是监控仪表盘。岗位描述变了，但岗位本身依然存在。

当智能手机到来时，它们并没有取代出租车调度员，它们取代的是调度员的流程。Uber 仍然需要司机。”人在回路中”只是从呼叫中心转移到了车上。

AI 消除了这个回路。

一份合同过去需要初级律师花四个小时阅读、批注和摘要，如今语言模型九十秒就能处理完毕。不是近似地处理，而是真正地处理。模型能识别非标准的赔偿条款，标记缺失的责任限制条款，摘要实质性义务，并产出高级律师十分钟就能审完的成果。初级律师四个小时的计费工作，变成了高级律师十分钟的监督审查。

这正在发生。不是在实验室里，不是在演示中。是在生产环境中，在那些正在向客户收费的律师事务所里。

取代在现实中的样貌

“AI 取代劳动者”这一论断需要具体化，因为含糊的颠覆叙事毫无价值。以下是各行业正在实际发生的情况。

合同审查。 一家中型律所每月审查 200 份合同。每份合同需要初级律师 3-5 小时。这意味着每月 600-1000 小时的初级律师工时，大约相当于四名全职员工。AI 系统在不到两分钟内处理每份合同，产出结构化摘要、风险评估和批注修改。高级合伙人仍然审查产出结果。但那四名初级律师？他们的工作不是被自动化了，而是被消除了。

财务分析。 一家咨询公司收到客户的财务报表：三年的资产负债表、利润表、现金流量表。分析师花两天时间建模、计算比率、识别趋势、与行业基准对标。AI 系统在几分钟内完成这一切。不是粗略的草图，而是包含方差计算、趋势识别和异常标记的完整分析。分析师的两天工作变成了高级顾问三十分钟的审查。

客户支持。 一家 SaaS 公司每月处理 10,000 张工单。每张工单需要客服人员阅读问题、搜索知识库、撰写回复并跟进。平均处理时间：12 分钟。这意味着每月 2,000 小时，大约相当于十二名全职员工。AI 系统在无需人工介入的情况下解决 60-70% 的工单。不是把客户打发到 FAQ 页面，而是真正理解问题、搜索文档、提供具体准确的解答。剩余 30-40% 上报给人工处理，但人工现在只需处理 3,000-4,000 张工单，而非 10,000 张。

代码生成。 一个过去需要开发者整整一天才能实现的功能（阅读规格文档、编写代码、编写测试、调试、重构），如今借助 AI 辅助，一个小时就能完成。不是生成样板代码，而是真正理解代码库、找到正确的抽象、实现逻辑、编写有意义的测试。开发者的角色从写代码转向审查代码。生产力的提升不是 10% 或 20%，而是 3 到 5 倍。

医疗文档。 一名医生每天花两小时在临床笔记上。AI 医疗记录员现在能实时听取患者就诊过程并生成结构化的临床文档：SOAP 笔记、ICD-10 编码、药物核对。医生审查并签字。两小时变成十五分钟。

这些不是从会议主题演讲中精心挑选的演示。这些是今天正在运行的生产系统，处理真实的工作，产出被真正的专业人士所依赖的成果。

速度问题

与此前每一次自动化浪潮不同的是这次变革的速度。

工业革命自动化了体力劳动。但它花了数十年。流水线取代了手工匠人，但这一转变历经四十年才完成，给了社会足够的时间去适应。新的岗位（机器操作员、维修工人、质检员）不断涌现，吸收了被替代的工人。

AI 正在自动化脑力劳动，而且以年为单位推进，而非以十年。

2022 年，ChatGPT 还只是一个新奇的玩物，连准确数出一个单词有几个字母都做不到。到 2024 年，AI 已经在撰写法律文书、生成医疗记录、编写生产级软件、分析财务报表。到 2026 年，问题已经不再是 AI 能否胜任知识工作，而是哪些知识工作 AI 还做不了。

AI 做不到的事情清单每个季度都在缩短。而 AI 做得比中位数人类专业人士更好的事情清单每个季度都在增长。交叉点，即 AI 产出质量超过给定任务中人类平均水平的临界点，在许多知识工作领域已经到来。

这不是技术决定论，这是算术。如果一项任务可以被分解为步骤，如果这些步骤可以用语言描述，如果产出的质量可以被评估，AI 就能做。也许不够完美，也许无法覆盖所有边界情况。但已经足够好了，好到经济规律会迫使这一转变发生。

不对称性

当前 AI 经济中存在一种根本性的不对称，它就摆在明面上，却被大多数人视而不见。

构建 AI 的公司（OpenAI、Anthropic、Google DeepMind、Meta AI）正在攫取巨大的、复利式增长的价值。每一次客户交互都产生收入，同时生成能改进产品的信号。每一次集成都加深了依赖。每多使用一个月，切换成本就更高，议价能力就更低。它们在积累资产。

使用 AI 的公司，也就是其他所有人，则是在按月租用能力。每一块花在 API 调用上的钱都有去无回。每一个构建在第三方模型之上的工作流都是负债而非资产。每多使用一个月，它们变得更加依赖，而非更加强大。

这就是有线电视模式在智能领域的翻版。而就像有线电视一样，这种不对称性是结构性的，但也是暂时的。

按 token 计费就是二十年代的有线电视账单。价格从 7.99 美元起步，然后是 14.99，然后是 22.99 而且低价套餐还加了广告。但等到价格翻倍时，客户已经围绕它建立了晚间习惯。孩子们已经熟悉了操作界面。观看记录无法替代。换一个平台意味着一切从头开始。

AI 依赖沿着同样的轨迹发展，只是切换成本要高出几个数量级。Netflix 的观看记录可以被替代。提示词库、评测框架、微调数据集和生产流水线则不能。

但历史告诉我们，这种不对称性终会得到修正。铁路、电力、电信、云计算，每一种基础设施垄断最终都走向了商品化。规律惊人地一致：基础设施提供者攫取了不成比例的价值。在技术新颖、替代方案更差的时候，市场容忍了这一点。然后替代方案通过监管、标准化或开源竞争出现，基础设施走向商品化。提供者的利润率被压缩。价值转移到了在其之上构建产品的公司手中。

开源模型（Llama、Mistral、DeepSeek、Qwen）正在缩小与闭源模型之间的质量差距。还没有完全追平，还不是在所有任务上，但速度快到趋势已经清晰可见。两年前，开源模型还是研究级的玩具。今天，Llama 3 和 DeepSeek R1 在大多数基准测试上已经可以与 GPT-4 相媲美。GPU 经济学正在发生交叉。软件层才是瓶颈。

问题不在于当前的 AI 提供商是否配得上它们的位置，它们确实构建了非凡之物。问题在于：中心化的智能，按 token 租用，受制于每个季度都可能修改的服务条款，这是否是 AI 经济的永久结构？

历史的回答是：不。修正总会到来。问题是下一层是什么样的，以及谁来构建它。

不会改变的事

精确界定 AI 取代什么至关重要，因为夸大其词和视而不见同样危险。

AI 不能取代判断力。不能取代人际关系。不能取代资深合伙人察觉一笔交易不对劲的直觉，不能取代医生感知患者有所隐瞒的敏锐，不能取代管理者预感团队即将崩溃的第六感。

AI 取代的是两次判断之间的工作。是阅读、摘要、计算、起草、排版、核查和反复核查这些占据了大多数知识工作者 80% 工作时间的事务。是那些围绕关键决策而存在的脚手架。

这个区分决定了谁从中受益。做出判断的资深专业人士会变得大幅高效：他们免费获得了脚手架。而那些以搭建脚手架作为职业入口的初级专业人士，则面临一个更艰难的问题。传统路径是做五年基础工作，吸收机构知识，然后晋升到做判断决策，而当基础工作被自动化之后，这条路径就断裂了。

这不是 AI 的特性。这是 AI 当前部署方式所带来的结构性后果。这也是几股力量正在汇聚、使当前 AI 基础设施模式难以为继的原因之一。

今日生态

从”AI 作为工具”到”AI 作为劳动者”的转变不是预言，而是正在发生的事实：在数以千计的团队中，用真实的软件，被真实的人每天使用。在讨论哪些还缺失之前，有必要先让读者了解已经存在的东西，因为 AI 生态的变化速度之快，足以让任何人在半年内就过时。

Vibe Coding：矿井里的金丝雀

AI 已经从工具跨越到劳动者，最清晰的信号是开发者现在所说的”vibe coding”：用自然语言描述意图，然后让 AI 来编写、测试和调试代码。

这不是代码补全。不是加了强的自动完成。这是一种根本不同的工作方式。

Cursor 在 VS Code 编辑器的基础上围绕 AI 进行了重构。开发者描述自己想要什么，比如”添加一个分页组件，需要支持服务端渲染并保留滚动位置”，AI 就会阅读现有代码库，定位相关文件，生成实现方案，并以 diff 的形式呈现供开发者审查。它理解项目结构、导入规范和测试模式。它不只是生成代码，它生成的是契合项目的代码。

Windsurf（来自 Codeium）将自主模式推向了更深处。其 Cascade 功能将多个推理步骤串联在一起：阅读文档、探索代码库、生成代码、运行测试、解读失败原因、迭代优化，所有这些都在开发者看到结果之前完成。开发者审查的是一个完整的功能，而非一段代码片段。

Claude Code（来自 Anthropic）直接在终端中运行。没有 IDE 外壳，没有可视化界面。开发者描述一个任务，AI 就会浏览文件系统、读取文件、编写代码、执行命令、解读输出并提交变更。它能将多文件重构、测试套件创建和构建系统配置作为单一操作来完成。开发者反馈说，过去需要一整天的工作现在一小时就能完成。

Replit Agent 走得更远。给定一段自然语言描述的完整应用需求，它会生成项目结构、编写代码、配置数据库、设置身份认证、部署到生产环境并提供一个可访问的 URL。一个初级开发者需要一周才能搭建的应用骨架，几分钟就跑起来了。

这些工具不是新奇的玩具。Cursor 拥有数百万用户。Windsurf 和 Claude Code 正在从初创公司到大型企业的各种公司中被实际使用。GitHub Copilot（最早的 AI 编程工具）报告称开发者接受了超过 30% 的建议，而这个数字低估了其影响，因为随着每一代模型的迭代，建议的内容越来越长、越来越复杂、越来越具有架构意识。

Vibe coding 的意义不在于开发者变得更高效了。它是未来将在所有领域发生之事的概念验证。如果 AI 可以编写、测试和部署软件（这是人类所从事的最复杂的认知任务之一），那么数据管道、文档处理、研究工作流和业务运营都在同一条轨道上。软件开发只是第一个工具成熟到足以让这一转变可见的知识工作领域。

多智能体框架：流水线的出现

单模型应用（提一个问题、得到一个回答）已经是遗留架构了。行业正在转向多智能体系统，让专业化的 AI 工作者协作完成复杂任务，各自处理自己最擅长的部分。

实现这一点的框架正在快速涌现。

LangChain 及其扩展 LangGraph 提供了将智能体工作流构建为有向图的基础管道。图中的每个节点是一个具有特定角色的智能体（研究员、分析师、撰稿人、审校者），而边则定义了工作如何在它们之间流转。LangGraph 处理状态管理、条件分支、人在回路中的检查点和错误恢复。它是最接近认知工作流水线的东西。该框架在 GitHub 上拥有超过 100,000 颗星标，被数千家公司在生产环境中使用。

CrewAI 采取了更具主见的方式。开发者不必构建图结构，而是定义具有角色、目标和背景设定的智能体”团队”。一个团队可能由一位高级研究员、一位数据分析师和一位报告撰写者组成。框架自动处理任务委派、分解和质量审查。开发者描述期望的产出，团队自行组织完成。CrewAI 自 2023 年底发布以来，已经增长到超过 60,000 颗 GitHub 星标。

DSPy（来自 Stanford NLP）从相反的方向切入。它不通过显式工作流来编排智能体，而是将语言模型调用视为可优化的模块。开发者定义管道结构（检索相关文档、提取关键事实、综合结论），DSPy 会自动优化每一步的提示词、few-shot 示例和思维链推理。这是多智能体系统的编译器方法：描述你想要什么，框架来解决如何高效达成。

AutoGen（来自 Microsoft Research）支持多智能体对话，智能体之间可以讨论、辩论并不断精炼各自的工作。一个编码智能体编写代码，一个审查智能体提出批评，一个测试智能体运行测试，编码智能体根据反馈进行迭代。对话持续进行，直到群体达成共识或满足质量阈值。它将多智能体工作流建模为对话而非管道。

OpenClaw、Semantic Kernel、Autogen Studio、Agency Swarm，框架名单每月都在增长。每一个都采取略有不同的架构方式，但它们都汇聚于同一个洞见：复杂的工作需要多个专业化的智能体协同配合，而非一个单一模型来回答问题。

这些框架解决的是编排问题：如何分解工作、协调智能体、重新组合它们的产出。但它们都没有解决问责问题：谁来追踪智能体做了什么、花了多少钱、数据去了哪里、委派工作的人类能否验证结果。AceTeam 所处的正是这个不同的位置：不是又一个编排框架，而是位于所有这些框架之下的问责基础设施。

其含义是结构性的。当工作被分解为智能体角色并通过编排框架重新组合时，所形成的系统更像是一个组织而非一个工具。它有专家、管理者、审查流程和质量关卡。不同之处在于”员工”是软件，”招聘”是配置，”薪酬”是算力成本。

互操作层：A2A 与通信标准

当每个团队都在构建智能体时，下一个问题不可避免地出现：来自不同组织的智能体如何彼此对话？

谷歌的 Agent-to-Agent（A2A）协议是目前的主流答案。该协议于 2025 年初发布，现已获得超过 150 家机构的支持，并由 Linux Foundation 维护。它提供了一种标准化的方式，让智能体发现彼此、发起对话、交换消息以及管理任务生命周期。

该协议通过三个关键机制运作。

第一，Agent Card（智能体名片）。每个兼容 A2A 的智能体都会在 /.well-known/agent.json 发布一份 JSON 文档，描述其能力、支持的认证方式、输入输出模式和技能。这是智能体版的名片：任何其他智能体都可以发现这个智能体能做什么以及如何与之交互。

第二，任务管理。A2A 为智能体间的工作定义了标准生命周期：任务可以处于 working（进行中）、completed（已完成）、failed（失败）、canceled（已取消）等状态，以及至关重要的 input_required，表示智能体需要人类输入后才能继续。这种生命周期的标准化意味着，任何兼容 A2A 的客户端都可以管理任何兼容 A2A 的智能体的工作，而无论它由谁构建。

第三，结构化内容。智能体之间的消息使用类型化的部分（文本、文件和结构化数据），因此智能体不仅可以交换自然语言，还可以以标准化的方式交换 JSON 对象、图像、PDF 和二进制文件。

A2A 的重要性在于，它将智能体从孤立的应用变成了网络化的服务。一家咨询公司的战略规划智能体可以发现并调用一家市场研究公司的分析智能体，后者又可以调用一家金融数据提供商的提取智能体。三个组织、三个运行时、一个工作流，A2A 提供了使之成为可能的通信标准。

但 A2A 明确定位为通信层。它处理发现、消息传递和任务状态。它不处理成本追踪、数据治理、溯源、预算执行或跨组织问责。它是智能体经济的电话系统：不可或缺，但远远不够。当智能体 A 调用智能体 B 再调用智能体 C 时，A2A 确保通话接通。但谁来付费、谁接触了什么数据、每个边界是否获得了授权，这些问题它一概不管。

这个空白不是对 A2A 的批评。该协议在其范围内设计得很好。空白在于生态系统：通信层正在被标准化，但问责层尚不存在。详见第二部分。

包装器窗口期

当前生态系统中存在一个架构层面的偶然现象，它创造了一个暂时但深远的机遇。几乎所有智能体框架，包括 LangChain、CrewAI、DSPy、AutoGen 以及数十个其他框架，都通过 OpenAI 兼容的 API 格式来路由其模型调用。不是因为 OpenAI 规定了这一点，而是因为他们的 API 最先进入市场，成了事实上的标准。

这意味着，无论开发者使用哪个框架，实际的模型调用都通过一个接受相同 JSON 模式的 HTTP 端点：一个 messages 数组、一个模型标识符、可选的工具以及配置参数。Anthropic 的 Claude API、谷歌的 Gemini API、Mistral 的 API，以及大多数开源推理服务器（vLLM、Ollama、llama.cpp）都支持这种格式。它是 AI 世界的 HTTP：一个人人采用的通用传输协议，仅仅因为它已经在那里。

其结果是，一个单一的代理服务器，置于智能体框架和模型 API 之间，就能拦截一个组织中的所有 AI 调用。设置一个环境变量 OPENAI_BASE_URL=localhost:8080，每个框架中的每一次 LLM 调用都会路由到你的代理。无需修改代码。无需修改框架。无需协调厂商。

这就是包装器窗口期。在这个拦截点上的代理可以为任何智能体框架、任何模型提供商、任何运行时透明地添加成本追踪、安全评估、数据分类、使用日志和治理执行，且零集成工作。

这个窗口不会永远存在。随着智能体架构的成熟，它们可能会发展出原生的问责功能，或者转向更多元的通信模式。但此刻，API 接口的高度统一为问责层的植入创造了机遇，无需任何特定框架的配合。管道足够通用，一个拦截点就能覆盖整个生态系统。

跨组织智能体工作流已经到来

多智能体的未来不是理论。跨组织的智能体工作流已经在生产环境中运行，即使大多数人尚未注意到。

想想如今一家咨询公司使用 AI 为客户工作时会发生什么。公司的文档处理智能体导入客户的财务报表。该智能体调用一个提取模型，可能是在公司自有基础设施上运行的微调开源模型，也可能是通过 API 调用的 Claude 或 GPT-4。提取结果输入到一个分析智能体中，该智能体将财务比率与来自第三方数据提供商的行业基准进行比较。分析智能体的输出再输入到一个报告生成智能体中，产出结构化的交付物。

这个工作流已经跨越了组织边界。咨询公司的智能体在调用 AI 提供商托管的模型。基准数据来自一家金融数据公司的 API。报告模板可能引用了一家外部律所知识库中的法律用语。三到四个组织参与了一个工作流。

或者考虑一个更明确的案例：一家研究机构的文献综述智能体查询一家出版商的语义搜索 API，下载相关论文，提取关键发现，综合生成摘要。出版商的 API 本身就由 AI 驱动：嵌入向量、分类模型、相关性评分。研究智能体在调用出版商的智能体，后者在调用自己的模型，后者在处理受版权保护的内容，而所依据的许可条款可能覆盖也可能不覆盖这一特定用途。在这条链路中，没有任何人在明确追踪跨组织的数据流。

同样的模式正在医疗（临床决策支持智能体查询由制药公司维护的药物相互作用数据库）、法律服务（合同审查智能体查询由政府机构维护的监管数据库）和金融服务（风险评估智能体查询由征信机构维护的信用数据）领域涌现。

这些不是科幻小说中的场景。这些是今天正在运行的生产系统，处理真实的工作。智能体在每一次 API 调用中都在跨越组织边界。但用于追踪什么跨越了这些边界（成本、数据、授权、溯源）的基础设施并不存在。

已经搭好的技术栈

综合来看，生态系统呈现如下面貌：

应用层：vibe coding 工具（Cursor、Windsurf、Claude Code、Replit Agent）正在证明 AI 可以取代人类完成复杂的认知工作，从软件开发开始。

框架层：多智能体编排系统（LangChain、CrewAI、DSPy、AutoGen）正在让 AI 工作者协作完成单一模型无法胜任的复杂任务，将工作分解为专业角色并重新组合产出。

通信层：互操作协议（A2A，获得 150 多家机构和 Linux Foundation 支持）正在标准化智能体如何跨越组织边界发现彼此并进行对话。

传输层：OpenAI 兼容的 API 格式意外地创造了一个通用拦截点，问责、治理和成本追踪可以透明地在此植入。

部署层：跨组织的智能体工作流已经在生产环境中运行，数据在每一次 API 调用中跨越公司边界流动。

各块拼图正在快速组合。AI 智能体经济不是未来时态，而是现在进行时。智能体正在以一种让智能手机普及曲线都显得缓慢的速度被构建、部署、联网和编排。

但这个技术栈中有一个显眼的空白。通信层正在被标准化。框架层日趋成熟。应用层正在爆发。缺失的是问责层：追踪智能体做了什么、花了多少钱、数据去了哪里、是否有人授权的基础设施。智能体经济正在被搭建起来，却没有记账系统。

这正是本书所描述的基础设施，也是 AceTeam 正在构建的东西。不是又一个智能体框架，不是又一个模型包装器，而是位于所有这些之下的问责层，让值得信赖的自主工作成为可能。接下来的章节将阐述为什么这一层是必要的、它需要什么、以及它对正在经历这场转型的组织、个人和国家意味着什么。

但首先：三股力量的汇聚即将让这道空白再也无法被忽视。

三股力量汇聚

上一章所描述的 AI 生态系统是真实的、不断增长的，而且在很大程度上未经审视。数以千计的团队正在构建智能体、框架和工作流，却几乎没有人在追问，其底层的经济假设和架构假设是否可持续。

答案是不可持续。三股结构性力量正在汇聚，使当前的现状变得难以为继。每一股力量各自都具有重大意义。三者叠加，则构成了一种局面：当前的 AI 基础设施模式（中心化的模型、按 token 租用、受制于他人的服务条款）将走向瓦解。不是终有一天，而是很快。

力量一：云锁定陷阱

考虑一下一个组织在采用云 AI 平台时所做的交易。

它把自己的数据（合同、客户对话、财务记录、内部文档）发送到别人的服务器上。一个它无法控制的模型处理这些数据。它得到一个回复。按 token 付费。模型在进步。但组织没有。

第一个月：团队接入了 API。简单。几行代码。演示令人印象深刻。CEO 很兴奋。

第六个月：团队围绕 API 构建了一整套工作流。文档处理管道。客户支持自动化。数据分析工具。所有这些都依赖于某个特定模型的能力、特性和定价。

第十二个月：组织已经积累了提示词库、评测框架、微调数据集和生产流水线，全部与一家厂商的模型深度绑定。切换到竞品意味着一切推倒重来。

第二十四个月：厂商涨价了。幅度不大，也许 15-20%。组织算了一笔账。在另一个平台上重建需要 30 万美元的工程投入和三个月的业务中断。于是它默默接受了涨价。

这就是 Netflix 的轨迹。Netflix 起初每月 7.99 美元。如今标准套餐 22.99 美元，高级套餐 28.99 美元。产品更贵了，条款更差了：低价套餐加入了广告。但当价格翻倍时，客户已经围绕它建立了晚间习惯。孩子们熟悉了操作界面。观看记录无法替代。切换到 Hulu 意味着一切从头开始。

AI 依赖遵循同样的模式，只是锁定机制更深。

价格棘轮。 一家中型律所每年通过 AI 管道处理 5,000 份合同，年度 API 支出在 50,000 到 100,000 美元。一家咨询公司为数百家客户运行财务分析，支出 200,000 美元。一个处理数百万次交互的客服系统，支出 500,000 美元或更多。当替代方案是雇人时，这些成本是可以接受的。但价格长期只会朝一个方向走，而切换成本只会越来越深。

数据暴露。 每一份由云 AI 服务处理的文档都会经过组织无法控制的服务器，在组织可能从未考虑过的司法管辖区，由组织从未审查过其访问权限策略的员工和承包商管理。即使选择退出训练数据使用，数据在处理过程中仍是解密状态。有人握着密钥，而这个人不是客户。当《纽约时报》因版权侵权起诉 OpenAI 时，证据开示程序指向了训练数据。当意大利监管机构调查 ChatGPT 时，他们要求提供用户交互日志。对消费者来说，这或许可以接受。但对于处理特权通信的律所、管理患者数据的医疗机构，或讨论机密系统的国防承包商来说，这是不可接受的。

模型废弃。 近年来，主要 AI 提供商已经废弃了多个模型版本，迫使客户迁移到行为不同、定价不同、能力不同的新模型。评测基准失效。回归测试套件需要更新。引用特定模型版本的监管备案文件现在描述的是一个已经不存在的软件。试想一下，如果某个数据库厂商废弃了 SQL Server 2019 并要求在 90 天内迁移到 SQL Server 2022，而且查询行为还不一样。整个行业都会暴跳如雷。但当 AI 提供商做了同样的事，客户们耸耸肩就去改代码了。权力的不对称已经极端到大多数组织甚至不认为这是个问题。

价值向上流动。 当一家律所使用云 AI 服务审查合同时，律所得到了一份审查过的合同。AI 提供商得到了律所的使用模式、律所的提示词（其中编码了律所的机构专业知识）以及收入。律所的竞争优势，即关于合同审查的领域知识，现在被编码在存放于别人服务器上的提示词中。当一家咨询公司在云模型上构建分析管道时，咨询公司获得了更快的分析速度。提供商获得了咨询公司的分析框架、客户数据模式和领域专业知识。每一次交互都让平台变得更聪明，而咨询公司变得更容易被替代。

当前的 AI 经济在结构上是攫取性的。平台攫取复利式增长的价值。客户积累的只有账单。而切换成本确保客户无法离开。

力量二：工作流鸿沟

去掉营销话术，组织真正需要 AI 做的事情是：接收混乱的输入，应用领域特定的规则，产出结构化的结果，并让人类在预设的检查点审核成果。

这就是全部需求。而市面上没有任何产品能满足。

AI 行业在卖聊天机器人。组织需要的是工作流。

聊天机器人是一个文本框。输入问题，得到答案。答案也许好，也许是幻觉。不检查就无从得知。没有结构，没有问责，没有审计追踪。它是一次对话，不是一个流程。

工作流是一个系统。它有明确的输入、明确的步骤、明确的输出和明确的检查点，人类在这些检查点进行审查和批准。它是可重复的、可审计的、可预测的。它是”问某人一个问题”和”给某人布置一项工作”之间的差别。

每一个严肃的组织都通过工作流运作。不是因为它们热爱官僚主义，而是因为工作流是确保质量、管理风险和维系问责的方式。医院不会让医生通过和同事聊天来开药。有一套流程：检查患者、审查病史、核查相互作用、开具处方、记录文档、复核。每一步都有目的。每一步都有责任人。每一步都有记录。

来自三个不同行业的三个真实工作流，展示了这种普遍性的结构：

一家会计师事务所处理年度财务报表：客户上传银行对账单和收据，系统导入并分类，与总账核对，标记差异，初级会计师审查标记项，系统生成报表草稿，高级会计师审查合规性，系统产出最终文件包，合伙人签字确认。

一位移民律师处理工作签证申请：客户提交雇主 offer 和资质证明，系统提取相关数据，确定适用的移民通道，映射所需表格和文件，标记缺失项，律师助理跟进，系统生成已填写的表格，律师审查法律充分性，系统汇总提交文件包。

一家保险公司处理理赔：保单持有人提交事故材料，系统导入并提取关键事实，验证保单覆盖范围，核查欺诈指标，计算初步赔付金额，理赔员审查标记案件，系统生成赔付方案，主管审批，系统发起支付。

三个不同的行业。三种不同的监管环境。三套不同的专业标准。结构却相同。每一个都有同样的骨架：导入文档，提取结构化数据，应用领域规则，标记异常，路由至人工审查，产出合规输出。领域知识不同。监管要求不同。但架构一致。

目前填补这一空白的方式全都行不通。手工劳动有效但缓慢、昂贵且无法扩展。遗留软件（QuickBooks、案件管理系统、理赔平台）能自动化机械性的部分，但无法阅读文档、提取含义或运用判断。拼凑式 AI（用 Python 脚本串联 API 调用、内嵌提示词加临时错误处理）在模型被废弃、提示词需要更新或需要审计追踪之前尚能运转。脚本是脆弱的。错误处理是临时的。审计追踪不过是一个日志文件。

研究一致表明，70-75% 的 AI 试点项目从未进入生产。原因不在于 AI 不好用，大多数情况下，原始能力在试点中已经得到验证。原因在于，从”AI 能做这件事”到”这个 AI 流程已经配备了人工检查点、审计追踪、错误处理和现有系统集成，达到了生产就绪状态”之间的鸿沟是巨大的。工作流鸿沟不是产品缺口，而是架构缺口。

聊天机器人是专业工作的错误界面。专业工作需要的是流程，不是对话。而支撑 AI 驱动流程的基础设施，即内置 AI 能力的工作流引擎，而非在聊天界面上勉强嫁接工作流，几乎不存在。

力量三：硬件交叉点

有一张 AI 行业不公开讨论、但每一个做过计算的人都知道是真实的图表。图上有两条线正在交叉。

第一条线是云 AI 推理的成本，即组织按 token 向 OpenAI、Anthropic、谷歌等提供商支付的费用。这条线一直在下降，但下降缓慢，而且提供商有充分的动力将其保持在零以上。

第二条线是在自有硬件上运行推理的成本：购买 GPU、运行开源模型、本地管理基础设施。这条线一直在急剧下降。

两条线正在交叉。当它们交叉的时候，AI 的经济学将永久改变。

五年前，运行一个大型语言模型需要八块 NVIDIA A100 GPU，每块 10,000 美元，光 GPU 就要 80,000 美元，还不算服务器机箱、散热和存储。整套系统成本：150,000 至 250,000 美元。当时可用的开源模型（GPT-2、早期 BERT 变体）是研究级的玩具，输出质量无法使用。软件端需要由年薪 300,000 至 500,000 美元的 ML 工程师编写自定义推理代码。2021 年自托管推理的总成本：每年至少 500,000 到 1,000,000 美元，而输出质量远远不如 GPT-3 的 API。

今天，一块 NVIDIA RTX 5090 拥有 32GB 显存，售价 2,000 美元。一台配备四块的服务器（总计 128GB 显存）成本 15,000 至 20,000 美元，可以运行 700 亿参数的模型并且绰绰有余。开放权重模型（Llama 3.1、DeepSeek R1、Qwen 2.5、Mistral Large）在大多数基准测试上追平甚至超越了 GPT-4 的表现。不是完美追平，不是在所有任务上，但已经足够接近，对于大多数商业应用来说质量差异可以忽略不计。推理软件（vLLM、llama.cpp、Ollama、TensorRT-LLM）自动处理批处理、量化和服务部署。几分钟即可安装完成。无需 ML 专业知识。

针对具体场景的计算使交叉点变得清晰可见：

一家中型专业服务公司每月处理 5,000 份文档，按当前云 API 定价大约需要 225 美元/月。在这个规模上，云方案胜出：自建基础设施不值得。但如果扩展到每月 50,000 份文档，每份文档需要多次模型调用（提取、分析、生成、审查），月度 API 成本将达到 4,000-8,000 美元。一台 30,000 美元的服务器运行 Llama 3，4-6 个月即可回本。此后，推理的边际成本就是电费，大约 300 美元/月。这家公司每年永久节省 40,000 至 90,000 美元。

在企业或政府级别（每年数百万份文档、严格的数据驻留要求、每月 50,000 至 500,000 美元的云 AI 支出），自托管基础设施的理由不仅充分，而且不可辩驳。一个 500,000 美元的 GPU 集群运行开源模型，1-3 个月就能回本，而且在性能、隐私和控制力上都优于任何云 API。

硬件趋势不可阻挡。GPU 的每美元性能大约每 18-24 个月翻一番。开源模型质量每个季度都在提升。推理软件每个月都在成熟。往前推演五年：今天售价 10,000 美元的 GPU 届时将只要 2,000 美元，性能还是现在的四倍。开源模型将在几乎所有任务上追平最好的闭源模型。推理软件将像部署 Web 服务器一样简单。一套完整的 AI 推理设备将只有迷你冰箱大小，价格低于一辆汽车。

这不是推测。这是对数十年来持续成立的趋势的外推：摩尔定律应用于 AI 推理。

汇聚

这三股力量中的每一股各自都具有重大意义。三者叠加，则创造了一个不稳定的均衡。

云锁定意味着组织正在积累对自己无法控制的基础设施的依赖，数据无法保护，价格无法谈判。

工作流鸿沟意味着组织无法将 AI 能力转化为 AI 流程，即它们真正需要的运营工具，除非进行脆弱的、定制化的工程开发，而大多数组织负担不起。

硬件交叉点意味着租用云 AI 的经济理由每个季度都在减弱，但使自托管 AI 可用的软件层尚不存在。

现状是一个智能租赁模式：通过聊天界面销售，运行在客户并不拥有的硬件上。三股力量同时从不同方向施压。租赁模式在经济上不可持续。聊天界面在架构上就是错的。对硬件的依赖在技术上已非必要。

总有什么要让步。而那个必须被构建出来以化解这三股力量的东西，就是第二部分的主题。

但这里有一个关键的洞见：本章描述的三股力量都关乎组织与其 AI 能力之间的关系。问题还存在第四个维度，而且可能更为紧迫：AI 智能体之间的关系。当智能体开始跨越组织边界工作（调用彼此的 API、在公司之间传递数据、消耗彼此硬件上的资源），一个全新类别的基础设施就变得不可或缺。不是工作流自动化。不是云管理。不是模型部署。

而是问责。

智能体经济正在飞速到来。它所需要的基础设施还不存在。

第 2 章

空白地带

智能体经济的到来速度远超所有人的预期。智能体在编写软件、处理文档、分析数据，并跨越组织边界进行协调。通信标准正在确立，框架日趋成熟，硬件成本持续下降。

但智能体经济要想负责任地运转，所需的基础设施尚不存在。当组织 A 的智能体调用组织 B 的智能体，再调用组织 C 的智能体，目前没有任何标准化的方式来追踪发生了什么、花费了多少、数据流向何处、是否获得了相关授权。这不是现有产品类别中某个功能的缺失，而是一个品类级的缺口：一整层基础设施，从未有人构建过，因为只有当智能体开始大规模协作时，这种需求才变得显而易见。

七股独立的力量（监管、经济、安全、法律、环境、地缘政治和企业治理）正在向同一个需求汇聚：标准化的智能体问责机制。这些力量之间没有任何协调，它们从不同的起点出发，受不同的动机驱动，沿着不同的时间线推进，却殊途同归。这种汇聚是结构性的，而非刻意安排的。它所揭示的真空地带，也绝非在现有平台上添加几个功能就能填补。

七股力量，一个终点

复杂系统研究中有一个观察结论直接适用于智能体经济：当多股独立力量汇聚于同一结果时，无论哪股力量”最重要”，该结果都将大概率发生。概率的高低不取决于任何单一驱动因素的强弱，而取决于这些驱动因素彼此独立的事实。它们不可能全都在同一件事上犯错。

七股独立的力量，彼此之间没有协调，却都在向同一个基础设施需求汇聚：一种标准化的方式来记录智能体做了什么、花费了多少、以及是否安全。

第一股力量：监管压力

AI 问责的监管体系正以罕见的速度成形。

EU AI Act 自 2024 年起分阶段生效，是迄今为止全球最全面的 AI 监管法规。它按风险等级对 AI 系统进行分类，并施加相应的义务。高风险系统（包括用于就业、信用评分、执法和关键基础设施的 AI）必须维护详细的运行日志，展示决策透明度，接受合规评估，并建立人工监督机制。Article 12 要求对高风险 AI 系统的整个生命周期进行”自动事件记录”。Article 13 要求这些系统”在设计和开发上确保运行具有充分透明度，使部署者能够解读系统输出并妥善使用”。

这不是愿景式的措辞，而是法律。在欧盟部署 AI 的组织，或服务于欧盟公民的组织，必须提供关于其 AI 系统行为及原因的可审计记录。违规处罚最高可达 3500 万欧元或全球收入的 7%，取较高者。

在美国，监管格局更为碎片化，但方向一致。NIST AI Risk Management Framework（AI RMF 1.0）提供了自愿性的 AI 治理指南，越来越多地被纳入采购要求和行业标准中。关于 AI 安全的行政命令已指示联邦机构制定 AI 系统评估框架。SEC 正在审视 AI 生成的分析应如何披露。FTC 已发出信号，表明欺骗性或不公平的 AI 行为属于其现有管辖范围。

在州层面，科罗拉多州 AI 法案（2026 年生效）要求高风险 AI 的部署者实施风险管理计划、进行影响评估，并在 AI 用于重大决策时通知消费者。加利福尼亚州拟议的 AI 透明度立法将要求披露 AI 生成的内容。纽约市第 144 号地方法已经要求对招聘中使用的 AI 进行偏见审计。

这些监管机构并没有在协调一个统一的”智能体问责”愿景。欧盟关注基本权利，NIST 关注风险管理，SEC 关注投资者保护，FTC 关注消费者损害，科罗拉多州关注歧视问题。但它们都汇聚在同一个基础设施需求上：AI 系统做了什么、处理了什么数据、产出了什么决策的可审计记录。

今天部署 AI 智能体的组织，必须为这样一个监管环境做好准备：每一个 AI 行为都可能需要被记录、可追溯、可解释。而自动化地、大规模地、跨越组织边界地生成这些记录的基础设施，尚不存在。

第二股力量：经济压力

CFO 们开始提出一个 AI 行业无法回答的问题：这到底花了多少钱？

当一个组织为人力团队付费时，成本核算一目了然。薪资、福利、管理费用和计费工时都有精确追踪。一家咨询公司清楚地知道合伙人 A 以每小时 600 美元的费率工作了 3 小时，助理 B 以每小时 250 美元的费率工作了 12 小时。账单逐项列明，项目利润可以计算，预算偏差可以解释。

当一个组织为 AI 付费时，成本核算一团糟。API 费用以单张月度账单形式到达，汇总了成千上万乃至数百万次单独调用。哪些调用服务了哪个客户？哪个工作流的哪些步骤消耗了最多 token？低效环节在哪里？处理一份合同、分析一份财务报表或解决一个客服工单的单位成本是多少？

在低用量时，这无关紧要。月度 AI 账单 500 美元的时候，没人在意细粒度的成本归属。但 AI 成本随采用规模增长。那些从试点项目和每月几百美元起步的组织，如今正在运行全组织级别的 AI 工作流，月支出高达数万美元。在这个量级上，CFO 要求 AI 运营具有与预算中每一个其他科目相同的成本可见性。

多智能体系统使问题更加尖锐。当一个编排智能体委派任务给研究智能体，研究智能体调用提取模型，提取模型查询向量数据库时，总成本分散在多个服务、多个 API，甚至可能多个组织之间。没有人能将总额分解为各组成部分。处理一份文档的 8 美元成本可能分解为 2 美元的编排费、3 美元的提取费、1.5 美元的向量查询费和 1.5 美元的报告生成费，但现有工具无法产出这种明细。

没有成本归属，组织就无法正确定价其 AI 辅助服务。它们无法识别哪些工作流是盈利的、哪些在亏本补贴。它们无法为部门或项目设定预算。它们无法在失控成本变成六位数惊吓之前发现问题。某初创公司遭遇 13.5 万美元 API 账单的事件并非个例，这是在缺乏成本追踪基础设施的情况下运行 AI 的必然后果。

仅经济压力一项，就将迫使 AI 智能体成本归属系统的诞生。问题在于，这些系统将是财务团队维护的临时电子表格，还是在工作流经智能体之间流转时自动追踪成本的协议级基础设施。

第三股力量：安全压力

AI 安全社区花了多年时间讨论如何让 AI 系统与人类价值观对齐。这些讨论很重要。但它们正被一个更紧迫的运行层面问题所超越：如何在运行时检测和防止有害的 AI 行为？

一个捏造法律引证的语言模型（正如 Mata v. Avianca 案中所发生的那样，一名律师提交的诉状中包含六条由 ChatGPT 生成的虚构案例引用），这不是哲学层面的对齐问题，而是一个运行故障，本可以被一个在输出到达用户之前验证引证的系统所捕获。

一个客服智能体无意中在回复另一位客户时泄露了某客户的账户信息，这不是长期的对齐风险，而是一个数据泄露事件，本可以被一个在传输前检查输出与数据分类标签匹配性的系统所防止。

一个 AI 系统在财务分析中出现了关键计算的符号错误，将 200 万美元的亏损变成 200 万美元的盈利，这不是存在性风险，而是一个质控失败，本可以被一个验证输出数值一致性的系统所捕获。

这些才是组织今天面临的安全问题。不是天网，不是回形针最大化。是部署 AI 系统时缺乏运行时安全评估所导致的务实的、日常的、却后果严重的故障。

安全社区正在就运行时安全的基础设施需求达成共识：在 AI 输出到达最终用户之前，根据既定策略进行评估的能力；记录安全相关事件以供事后分析的能力；维护会话上下文使安全评估考虑完整对话历史而非仅最新输出的能力；以及当智能体将工作委派给其他智能体时，跨越组织边界执行安全策略的能力。

这些需求听起来像是质量保证，确实如此。但在跨模型、跨框架、跨组织边界的规模上实施这些需求的基础设施并不存在。今天想要运行时安全评估的组织必须从头构建，针对每个应用，使用临时工具。安全裁决没有标准格式，安全上下文在智能体间传输没有协议，多智能体工作流中安全评估的组合没有框架。

第四股力量：法律压力

当一个 AI 系统的输出造成损害时，总有人要承担责任。但是谁？

法律体系建立在因果链之上。A 导致 B，B 导致 C，C 造成损害。责任归属通过逆向追溯因果链来确定。链条上每一环的个人或实体，按其对结果的贡献程度承担相应责任。

AI 智能体工作流打破了这个模型。当一个编排智能体委派给研究智能体，研究智能体调用提取模型，提取模型查询向量数据库时，因果链横跨多个软件系统、多个组织，甚至可能多个司法管辖区。如果最终输出包含错误（文档分类错误、引证捏造、个人数据泄露），逆向追溯因果链所需的记录根本不存在。

是哪个智能体产生了错误？是编排器的路由决策、研究智能体的检索、提取模型的解析，还是向量数据库的匹配？每个步骤可能涉及不同的供应商、不同的合同和不同的注意义务标准。没有每一步输入、输出和决策的逐项记录，法律体系就没有进行责任归属的原始材料。

这不是假设性的担忧。法律界已经在应对 AI 生成的证据。法院已开始要求在法律文书的准备中使用 AI 时进行披露。保险公司正在开发 AI 相关责任的保单。劳动法正在适应 AI 辅助的招聘决策。

共同的线索是：法律体系需要 AI 智能体行为的证据记录：输入了什么数据、输出了什么、应用了什么转换、系统报告了什么置信度。这些记录必须防篡改、带时间戳、可归属到具体的智能体和组织。

今天的 AI 基础设施不产生任何这类记录。API 调用由提供商记录（如果有的话），以提供商的格式，仅通过提供商的接口可访问，受制于提供商的保留策略。AI 行为记录没有标准格式。跨越组织边界保存证据链没有协议。

随着 AI 智能体承担越来越多的重大决策，随着诉讼的到来，对标准化证据记录的需求将变得急迫。法律体系不会等待技术赶上来，它会对现有一切施加证据开示要求。如果记录不存在，缺失本身就构成证据。

第五股力量：环境压力

AI 的环境成本大到足以引起监管机构和投资者的关注，又不透明到没有人能准确衡量。

据报道，GPT-4 的训练消耗了约 50 GWh 的电力，足以为大约 5000 个美国家庭供电一年。推理成本更难估算，但国际能源署预测 2022 年至 2026 年间数据中心的电力消耗将翻倍，主要由 AI 工作负载驱动。高盛估计，到 2030 年 AI 将推动数据中心电力需求增长 160%。

通过 cloud API 使用 AI 的组织，对其具体工作负载消耗的能源毫无可见性。月度账单显示的是 token 数量，不是千瓦时。不存在”每有效输出能耗”的标准化指标，即审查一份合同、分析一份财务报表或解决一个客服工单所消耗的电力。

ESG 报告框架正开始要求披露 AI 相关的能耗。欧盟的 CSRD 要求企业披露其整个价值链中的环境影响，这可以说包括 cloud AI 服务所消耗的能源。Scope 3 排放核算（涵盖企业价值链中的间接排放），当排放来自于他人 GPU 集群上的 AI 推理，而该集群位于未知的数据中心、使用未知的能源组合时，就变成了一场噩梦。

环境压力与经济压力汇聚于同一个基础设施需求：任务级别的 AI 运营细粒度追踪，详细到足以将不仅是成本，还有能耗和碳影响归属到具体工作负载。

第六股力量：地缘政治压力

民族国家正在意识到 AI 依赖所带来的主权问题。

当一个国家的政府机构、医疗系统、法律机构和金融服务全部通过美国公司在美国服务器上托管的 AI 模型处理数据时，主权影响是深远的。数据跨越司法管辖区传输。模型受美国法律约束。访问权限可被出口管制限制。服务可被制裁中断。AI 提供商的服务条款（每季度变更且不可协商）事实上成为了另一个国家关键基础设施的监管框架。

这并不抽象。加拿大的 PIPEDA 要求加拿大个人信息无论在何处被处理都必须受到保护。但当数据正在弗吉尼亚州的模型上处理，由旧金山的公司提供服务，且条款允许提供商在 30 天通知后修改数据处理惯例时，”受到保护”就成了一个弹性十足的措辞。

欧盟通过 GDPR 实施数据主权的做法已经确立了一个原则：关于欧盟公民的数据必须在欧盟等效保护下处理。Schrems II 判决使 EU-US Privacy Shield 失效，造成了跨大西洋数据流动多年的法律不确定性。AI 数据流比传统数据传输更广泛、更敏感、更不透明，将面临同样的审视。

认真对待主权的国家（而且名单在不断增长）想要本地可审计的 AI 计算。它们希望模型运行在本国管辖范围内的硬件上，在本国法律框架下处理数据，产出可供本国监管机构检查的输出。这要求在主权硬件上部署和治理 AI 的基础设施：不仅仅是在本地运行模型，还要维护 cloud 提供商在其平台上提供的治理、问责和审计能力。

地缘政治力量汇聚于同一个终点：在任何硬件、任何司法管辖区、任何监管框架下都能运作的标准化问责基础设施。

第七股力量：企业治理压力

CISO 和合规官员对 AI 智能体有一个具体的问题，而目前没有人能回答：这个智能体访问、处理和传输了什么数据？

企业治理框架（SOC 2、ISO 27001、HIPAA、PCI DSS）都要求组织记录谁（或什么）访问了什么数据、何时、凭什么授权、出于什么目的。这些框架是为人类访问模式设计的：一个人登录，访问一个文件，执行一个操作，操作被记录。

AI 智能体不遵循人类的访问模式。一个智能体可能处理包含个人身份信息的文档，提取相关字段，将提取结果传递给另一个智能体进行分析，再将分析结果传输给第三个智能体用于报告生成。在每一步，PII 可能存在也可能不存在于数据中。在每个边界，数据治理的含义都在变化，尤其当这些智能体由不同组织运营，受不同的数据处理协议约束时。

HIPAA 要求受管实体记录每一次受保护健康信息的披露。当一个 AI 智能体处理患者记录并将输出传递给另一个智能体时，这算不算一次披露？如果第二个智能体由业务伙伴运营，业务伙伴协议是否涵盖 AI 对 AI 的数据传输？这些问题目前还没有明确答案，但终将会有，届时，答案将要求能够跨智能体边界追踪数据血缘的基础设施。

企业治理压力汇聚于授权凭证：结构化的文档记录，记载访问了什么数据、存在什么授权、适用了什么治理策略、以及数据在每一步的处理情况。这不同于审计日志。审计日志记录的是某件事发生了。授权凭证证明的是在事情发生之前就已存在相应的授权。

汇聚点

七股力量。七个不同的行动者群体。七种不同的动机。七条不同的时间线。一个终点。

力量	主要行动者	需求
监管	政府、标准组织	AI 系统行为的可审计记录
经济	CFO、采购团队	跨智能体的逐项成本归属
安全	AI 安全社区、质量团队	带会话上下文的运行时安全裁决
法律	法院、保险公司、责任律师	防篡改的证据链
环境	ESG 投资者、气候监管机构	任务粒度的单位产出能耗指标
地缘政治	民族国家、主权倡导者	具备治理能力的本地可审计计算
企业	CISO、合规官员	跨边界的数据血缘与授权凭证

EU AI Act 的团队没有在与安全研究人员交流，安全研究人员没有在与 CFO 交流，CFO 没有在与气候监管机构交流，气候监管机构没有在与 CISO 交流。每股力量都在通过自身的机构、用自己的语汇独立制定其需求。

但剥去语汇和机构背景，它们需要的是同一样东西：一种标准化的方式来记录 AI 智能体做了什么、消耗了什么资源、触及了什么数据、以及在每一步是否存在适当的授权。它们需要凭证。

所有七股力量同时判断错误的概率微乎其微。这些力量是独立的：监管压力不依赖于环境压力，法律压力不依赖于经济压力。任何一股力量单独存在，最终都会创造出对智能体问责基础设施的需求。合在一起，它们使其成为必然。

问题不在于这种基础设施是否会存在，而在于多快会出现，以及以什么形式出现。是现有平台临时拼凑的合规报告？是每个企业各自构建和维护的临时日志框架？还是一个可跨智能体、跨组织、跨司法管辖区组合的协议级标准？

答案事关重大。因为问责基础设施的形式将决定智能体经济是发展为一个可审计、可治理的系统，还是一个监控国家、一团不可治理的乱麻，或介于两者之间的某种状态。

问责真空

这里有一个类比可以概括这个问题。

一家管理咨询公司聘请了一位战略专家参与客户项目。专家雇佣了一个市场调研分包商。分包商雇佣了一名数据分析师。数据分析师从第三方供应商购买了一个数据集。

在人类世界里，这些交易中的每一笔都有文书记录。咨询公司与客户有聘用函。专家与公司有分包合同。分包商与专家有协议。数据分析师有数据集的授权使用协议。每一层都有合同、发票、保密协议、交付物说明和纸质审计线索。

如果客户质疑分析结果，咨询公司可以追溯链条：结论来自专家的报告，报告基于分包商的调研，调研使用了数据分析师的发现，发现来源于授权使用的数据集。每一步都有记录，每一笔成本都可归属，每一个参与者都可识别。

现在，用 AI 智能体来做同样的事情。

一个编排智能体调用一个文档处理智能体。文档处理智能体调用一个提取模型。提取模型调用一个分类服务。分类服务查询一个向量数据库。

这花了多少钱？没人知道。编排器不追踪逐步成本，子智能体不报告它们的算力消耗，向量查询没有计量。总成本在 0.01 美元到 10 美元之间，但没人能给出精确的分解。

数据来自哪里？没人知道。提取模型处理了一些文档，但具体是哪些？向量数据库返回了相似段落，但来自哪些来源？凭什么权限？在什么数据治理协议下？

谁看到了数据？没人知道。编排器将数据传递给子智能体。这些子智能体中有没有记录数据？缓存了吗？发送给第三方 API 了吗？数据是否跨越了组织边界？

智能体经济正在没有任何文书记录的情况下运转。

三块缺失的拼图

问责真空由三个组成部分构成，三者都需要同时得到解决。只解决其中一个而忽略其他，系统在根本上仍处于无治理状态。

成本归属

当一个人类团队处理项目时，每一小时都被追踪。工时表、计费代码、项目分配。客户知道合伙人以每小时 600 美元的费率审阅了 3 小时，助理以每小时 250 美元的费率研究了 12 小时。总成本可以分解为各组成部分。

当一个 AI 系统处理工作流时，成本要么是月度账单上的一个数字（汇总了成千上万乃至数百万次单独的 API 调用），要么完全不可见，埋藏在没有人归属到具体工作产出的基础设施费用中。

哪些 API 调用服务了哪个客户？哪些步骤消耗了最多 token？哪些提示词效率低下？工作流在哪里把预算烧在了不必要的处理上？这些问题原则上是可以回答的（数据存在于 API 日志和计费仪表盘的某处），但实际上，没有组织能从现有的原始材料中重建一个复杂多智能体工作流的成本树。

在多智能体系统中，问题进一步叠加。当编排器委派给研究智能体，研究智能体调用提取模型，提取模型查询向量数据库时，成本分散在多个服务、多个 API，甚至可能多个组织之间。每个服务有自己的计费模式：有的按 token 计费，有的按查询次数，有的按算力时间，还有的不收费但消耗了有摊销成本的内部资源。要拼出完整的成本图景，需要对齐所有相关服务的计费数据，这在手动操作上不切实际，而自动化工具尚不存在。

没有成本归属，组织无法为其 AI 辅助服务定价。一家使用 AI 加速财务分析的咨询公司，无法计算生产特定交付物的实际成本。它可以根据月度平均值进行估算，但各工作流之间的差异可能巨大：一次简单分析的 API 成本可能是 0.50 美元，而一次复杂分析可能是 15 美元。没有逐工作流的成本追踪，公司就是在盲目定价。

在缺乏细粒度成本追踪的情况下运行 AI 的后果，已经在六位数意外账单的记录案例中得到体现。这些不是孤立事件，而是以机器速度消耗资源却没有任何预算执行或成本可见性机制的系统的必然结果。

数据溯源

溯源回答三个问题：数据从哪里来，中途发生了什么，每一步谁有权访问？

在受监管的行业中，溯源不是可选项。制药公司必须记录临床试验中每一个数据点的保管链。金融机构必须追踪监管申报中每一个数字的来源。律师事务所必须维护特权日志，记录每一份被审阅的文件、审阅者是谁、审阅时间。

AI 系统没有内建的溯源能力。模型读取文档、处理它、产出结果。文档是原件还是修改过的副本？模型在处理过程中是否访问了其他数据？输出是否被缓存、记录或传输到其他系统？模型的回答是否整合了来自训练数据的信息，如果是，来自哪些来源？在当前的架构下，这些问题没有答案。

当 AI 系统生成引证时，溯源问题变得尤为突出。语言模型可以生成引用特定研究、引述特定段落、标注特定页码的文本，而每一条引用都可能是完全捏造的。Mata v. Avianca 案（一名律师提交的诉状中包含六条由 ChatGPT 生成的虚构案例引用）证明了 AI 生成的引证与现实之间没有内在的关联。文本看起来权威，格式完美无缺，内容却是虚构的。

真正的引证追踪需要当前不存在的基础设施：一种将 AI 生成输出中的每一个论断链接到具体来源文档中具体片段的方式，并附带一个反映链接可靠性的置信度分数。不仅仅是”这来自文档 A”，而是”这一具体论断映射到文档 A 第 12 页第 3-5 段，基于语义相似度和抽取式匹配确认，置信度为 0.87”。

当 AI 智能体跨越组织边界协作时，溯源变得更加复杂。如果智能体 A 基于智能体 B 的数据生成分析，而智能体 B 又从智能体 C 的数据库中检索了该数据，溯源链就横跨三个组织。每个组织可能有不同的数据分类体系、不同的保留策略和不同的披露义务。重建完整的溯源链需要来自所有三个组织的记录，而在当前的基础设施下，这些记录不以任何标准化格式存在。

治理边界

当咨询公司向分包商共享客户数据时，有保密协议。当医院向专科医生共享患者数据时，有业务伙伴协议。当公司向审计师共享财务数据时，有专业标准框架。

当一个 AI 智能体向另一个 AI 智能体传递数据时，什么都没有。

没有合同。没有访问控制。没有数据治理协议。没有边界定义。数据从一个智能体流向另一个智能体，从一台服务器到另一台服务器，甚至可能从一个组织到另一个组织，没有任何控制、追踪或审计流向的框架。

这对有分类要求的数据尤其危险。HIPAA 下的受保护健康信息（PHI）只能在特定协议下与受管实体和业务伙伴共享。GDPR 下的个人身份信息（PII）只能在有效的法律依据和同意下处理。SOX 下的财务数据必须在既定的控制框架内处理。律师-客户特权下的法律通信只能在既定的关系范围内共享。

AI 智能体默认不遵守这些边界。处理病历的智能体可能将完整记录（包括诊断代码、药物清单和患者人口统计信息）传递给另一个智能体进行分析。如果第二个智能体是由不同公司在不同司法管辖区运营的 cloud API，数据就跨越了一个没有人定义、没有人监控、事后也没有人能审计的治理边界。

适当的数据治理所要求的字段级粒度增加了另一个维度的复杂性。在一份文档中，某些字段可能是公开的（公司名称、申报日期），某些可能是内部的（合同金额、利润估算），某些可能是机密的（商业秘密、战略规划），某些可能是受监管的（社会安全号码、健康状况）。处理整份文档的 AI 系统对所有字段一视同仁。适当的治理要求对每个分类级别采取不同的处理方式，并要求在多智能体工作流的每一步都有强制执行该处理方式的基础设施。

为什么没有人解决这个问题

问责真空之所以持续存在，有三个相互强化的原因。

速度胜过合规。 组织争先恐后地部署 AI，因为生产力提升是实实在在的、立竿见影的。合规风险是理论上的、未来的。当 CEO 问”我们为什么还没用 AI”时，没有人会回答”因为我们还没解决问责问题”。他们先部署，然后祈祷。季度财报对展示 AI 驱动生产力提升的压力，压倒了问责基础设施的风险管理论证。这在单个组织层面是理性行为，在系统层面却是灾难性的。

AI 提供商没有解决它的动力。 成本归属功能（会让客户对支出有细粒度的可见性）会制造价格下行压力。溯源追踪（会暴露模型何时依赖训练数据而非真正的推理）会揭示客户可能不愿为之付费的能力实态。治理执行（会限制数据在多智能体系统中的流动方式）会拖慢采用速度。从提供商的角度看，问责真空不是缺陷，而是特性。花在问责基础设施上的每一分钱，都是没有花在模型能力上的钱，而模型能力才是驱动收入的。

工具不存在。 即使意识到问责缺口的组织，也没有简便的方式来填补它。在现有 AI API 之上构建自定义的成本追踪、溯源记录和治理执行，是一项重大的工程投入。它要求拦截每一次 AI 调用，监控每一个智能体边界，并维护一套平行的记录系统来捕获 AI 系统自身未能捕获的内容。大多数组织既没有专业能力也没有预算。于是它们接受了真空，通过人工监督来管理风险，而人工监督的扩展是线性的，AI 运营的扩展却是指数级的。

置信度真空

还有第四块缺失的拼图横跨上述三者，而且可能是最隐蔽的：校准置信度。

当人类专业人士完成工作时，他们自然地传达不确定性。”我对这个分析比较有信心，但东南亚市场的数据比较薄，在向董事会汇报之前我想核实一下那些数字。”工作接收者知道该把审阅重点放在哪里。不确定性是交付物的一部分。

当 AI 系统完成工作时，它以均匀的确定性进行表达。每一句陈述都以相同的排版权重、相同的权威口吻、相同的毫无保留呈现。一个直接来源于文档的事实，和一个凭空编造的统计数据看起来一模一样。一个高置信度的提取结果，和一个猜测看起来一模一样。输出是一堵等权重断言的墙，人类审阅者没有任何信号来判断应该把注意力集中在哪里。

这不是一个次要的用户体验问题。这是问责基础设施的结构性失败。没有校准置信度（一个可靠的信号来表明”这一论断有 92% 的可能性正确”还是”这一论断只有 55% 的可能性正确，你应该核实”），人工在环治理就是一场表演。人要么审查一切，要么什么都不审查，因为系统不提供任何关于人工注意力最需要聚焦在哪里的指引。

这个问题是可以量化的。关于 AI 系统集成式置信度估计的研究揭示了一个一致的模式：当你让多个独立模型验证同一个 AI 输出时，它们一致认为错误的输出是错的，但它们同样压倒性地一致认为正确的输出是对的，即使对只有一半概率正确的输出，也产出聚集在 100% 附近的置信度分数。模型系统性地过度自信。它们表达了自身并不具备的确定性。

这种过度自信意味着，朴素的置信度分数（那种你问模型”你有多确定”所得到的分数）不仅无用，而且具有误导性。一个信任单个模型给出的 95% 置信度分数的组织，是在基于一个与实际正确概率毫无关系的数字做决策。这个分数反映的是模型被训练成听起来权威的倾向，而非对输出可靠性的度量。

真正的校准（声称 80% 的置信度就意味着输出在 80% 的情况下是正确的）需要当前 AI 技术栈中不存在的基础设施。它需要多样化验证（多个具有不同架构和训练数据的模型，而不仅仅是一个模型给自己打分）。它需要历史追踪（这类输出在过去实际上有 80% 的情况是正确的吗？）。它需要领域特定的阈值（80% 的邮件分类置信度没问题；80% 的医疗诊断置信度则需要人工审阅）。而且它需要从纠正中学习的能力：当人类审阅者推翻了一个 AI 输出时，置信度系统应该更新其对类似输出的信念。

所有这些在默认状态下都不存在。每一个 AI 平台输出结果时都不附带置信度。每一个智能体框架执行行动时都不表达不确定性。整个智能体经济正在以机器速度做决策，却没有任何机制来区分系统真正确信的输出和系统在猜测的输出。

置信度真空是人工在环治理无法规模化的根源。如果你不能告诉人该看哪里，要求人工审阅就变成了一个瓶颈，抵消了 AI 的速度优势。如果你能告诉人该看哪里，只标记系统真正不确定的那 15% 的输出，那么人工治理就能与系统同步扩展。人审阅困难的案例，系统处理简单的。置信度分数就是使这一切成为可能的路由信号。

构建这个路由信号（校准的、领域特定的、自适应的、可信赖的），与成本追踪和数据溯源同样是问责基础设施的基石。它是第四根支柱，没有它，其他三根有用但不充分。

真空在实践中的面貌

问责真空的后果已经显现，尽管大多数事件并未登上新闻头条。

法庭文件中的捏造引证。 律师在多个司法管辖区因提交含有虚构案例引用的 AI 生成诉状而受到处分。这些不是孤立事件，而是在没有任何溯源机制的情况下部署生成看似权威引证的系统的必然结果。没有引证追踪基础设施，每一份 AI 辅助的法律文件都是一颗潜在的定时炸弹。

跨组织边界的 PII 泄露。 当客户数据经由横跨多个服务的 AI 智能体工作流处理时，没有机制确保 PII 在每个边界被剥离、脱敏或治理。Samsung 在发现员工上传了专有源代码和内部会议记录后，禁止了员工使用 ChatGPT。数据不仅到达了 OpenAI 的服务器，它被处理、可能被缓存，还可能被纳入训练数据后提供给其他客户。

无法归属的成本。 组织经常发现其 AI 支出是预算的 3-5 倍，因为按 token 的成本在数十个工作流和每日数百次运营中不知不觉地累积。没有逐工作流的成本归属，唯一的信号就是月度账单，而到那时，支出已经发生了。

默认合规失败。 受 HIPAA、GDPR、SOX 或其他监管框架约束的组织正在部署无法产出这些框架所要求记录的 AI 系统。它们赌的是监管机构暂时不会要求 AI 专用的审计线索。而当监管机构确实要求时（前一章所述的七股力量保证它们一定会），这些组织将发现记录不存在，也无法事后重建。

问责真空不是一个市场将自然解决的临时不便。它是基础设施中的结构性缺口，随着 AI 采用的加速将不断扩大。更多的智能体、更多的跨组织工作流、更多的数据跨越更多的边界流动，每一步都伴随着同样的追踪、归属和治理缺失。

人类世界拥有数百年积累的问责基础设施：复式记账法、合同、职业执照、监管框架、审计标准、保险和法院。智能体经济一个都没有。

构建这些基础设施（凭证、引证、成本树、授权记录、治理执行）不是在现有平台上添加的功能。它是一个需要被创造的品类。

一个品类，而非一个功能

面对问责真空，直觉反应是认为可以通过在现有平台上添加功能来解决。OpenAI 可以添加成本明细，Google 可以为 A2A 添加治理控制，AWS 可以为 Bedrock 添加溯源追踪。

这种直觉是错误的。不是因为这些公司没有能力（它们是地球上最强大的工程组织之一），而是因为多智能体、多组织工作流的问责，与它们的平台所设计解决的问题在结构上截然不同。把问责功能嫁接到智能体控制平面上，就像把财务审计嫁接到邮件服务器上一样。邮件服务器可以发送发票，但发票需要一个账本，而账本必须独立于邮件服务器。

问责层是一个不同品类的基础设施。要理解为什么，需要审视它必须做什么，以及这与现有系统的区别。

控制平面的路径

当前这一代智能体安全与管理工具遵循一种可以称为”外部检查点”的模式。

一台智能体控制服务器位于智能体工作流之外。当智能体即将采取行动（发起 API 调用、访问文件、执行工具）时，它向控制服务器发出请求。控制服务器根据一组策略评估该行动：这个工具是否在白名单上？这个输出是否匹配禁止模式？这个 API 调用是否在速率限制内？如果行动通过，智能体继续执行；如果未通过，智能体被阻止或行动被修改。

这个模型有明确的价值。它阻止智能体执行不允许的行动。它提供了一个集中控制点。它给运营者一个仪表盘，让他们看到智能体在做什么，并定义它们被允许做什么。

但这个模型有根本性的局限，在多智能体、多组织工作流中暴露无遗。

控制服务器的作用域局限于一个组织。 它看到它管理的智能体，但看不到其他组织运营的智能体。当咨询公司的智能体调用研究公司的智能体时，咨询公司的控制服务器评估出站调用，研究公司的控制服务器评估入站请求，但双方的服务器对彼此的评估毫无可见性。没有共享上下文。咨询公司不知道研究公司的智能体对其数据做了什么。研究公司不知道咨询公司的智能体为什么发出这个请求。

评估是无状态的。 每次策略检查都是独立的。控制服务器评估”这个行动是否被允许”时，没有关于之前发生了什么的上下文。这是智能体第五次访问这个数据源吗？这个会话的累计成本是否超过了预算？智能体的行为模式是否发生了暗示提示词被篡改的变化？无状态评估无法回答这些问题。它孤立地评估每一个行动，就像一个保安在门口检查证件，却对昨天谁进过大楼毫无记忆。

记录停留在检查点。 当控制服务器批准一个行动时，该批准的记录存放在控制服务器的数据库中。数据本身（正在处理的文档、正在生成的 API 响应）继续流转，不携带任何评估记录。六个月后，合规审计问：”这个输出在发送给客户之前是否经过了安全评估？”回答需要检查控制服务器的日志、匹配时间戳，并祈祷记录被保留了下来。输出本身不携带任何曾被评估过的证据。

没有可组合性。 当智能体 A 调用子智能体 B，子智能体 B 再调用子智能体 C 时，控制服务器看到三次独立的策略检查。它不理解这三次检查是同一个工作流的组成部分。评估之间没有父子关系。成本没有从子级汇总到父级。没有办法强制整个工作流（跨越所有子智能体）的总预算保持在既定限额内。

控制平面的路径就是门口的安全摄像头。它记录谁进来了，可以拦截未经授权的访客。但进入大楼的包裹上没有被检查过的记录。保管链在摄像头录像里，不在包裹上。

问责层的路径

问责层的工作方式不同。它不是从外部评估行动的外部检查点，而是一组随工作流转的结构化记录。

可以把它想象成钉在每个包裹上的保管链表格。

当一个智能体开始处理任务时，一个结构化上下文被创建。这个上下文包含：为此次操作分配的预算、适用的数据治理策略（存在哪些数据分类、存在什么授权）、将此操作链接到其父工作流的追踪信息、以及应该评估的安全策略。

这个上下文向下流经每一个子智能体调用。当编排器调用研究智能体时，研究智能体接收到上下文：剩余预算、治理要求、追踪 ID。研究智能体可以在决定是否继续之前检查这些信息：”我是否有足够的预算来处理这个请求？治理策略是否允许我访问此工作流包含的数据类型？我是否被授权在这些安全要求下运行？”

当每个智能体完成工作时，它产出一个结构化信封。信封包含：工作的结果、产生的成本（分解为算力、增值处理和平台费用）、将每一个论断链接到具体来源的引证、处理过程中评估的安全裁决、以及在每个数据边界做出的治理决策。

这些信封可以组合。当子智能体 C 将其信封返回给子智能体 B 时，B 将 C 的成本纳入自己的成本树，C 的引证纳入自己的引证链，C 的治理决策纳入自己的治理记录。当 B 将其信封返回给智能体 A 时，同样的组合再次发生。结果是整个工作流的层级化记录：每一步发生了什么、花了多少、每一个论断来自哪里、做了什么治理决策，汇聚成一个可检视的工件。

关键区别在于：记录随工作流转。六个月后，合规审计可以检视任何输出，立即看到：花了多少钱、涉及了哪些智能体、每一个论断追溯到哪里、处理了什么数据分类、每个边界存在什么授权、是否标记了任何安全问题。这些信息不在一个可能有不同保留策略或访问控制的独立日志系统中，而是在工件本身之中。

为什么这不能是一个功能

控制平面路径和问责层路径的区别不是工程偏好的问题，而是决定什么是可能的结构性约束。

跨组织问责需要协议，而非服务器

由组织 A 管理的控制服务器可以治理组织 A 的智能体。但当 A 的智能体调用 B 的智能体时，A 的控制服务器在 B 的基础设施中没有权限、没有可见性、也不存在。要在这个跨组织调用中添加问责，需要 A 和 B 都能理解、检视和扩展的东西，而不需要任何一方运营对方的基础设施。

这个东西就是协议：一种标准化的结构化问责记录格式，每个组织都可以独立生成、消费和验证。不是双方都必须连接的服务器。不是双方都必须信任的共享数据库。而是一种随数据流转、自带证据、任何接收者都可以验证的格式。

这与 HTTPS 的运作模式相同。HTTPS 不要求客户端和服务器之间有共享服务器。证书随连接流转。客户端独立验证证书。信任在协议中，而非在共享中介中。

智能体问责需要同样的模式。凭证必须随工作流转。成本树必须可供工作流中的任何参与方检视。引证链必须可供任何接收输出的人验证。治理记录必须可供任何有管辖权的监管机构审计。这无法由位于某一个组织基础设施中的服务器来实现。它需要一种在任何地方都能运作、不受任何人控制的格式。

成本树必须递归组合

在多智能体工作流中，成本是嵌套的。编排器产生成本。它调用的研究智能体产生成本。研究智能体调用的提取模型产生成本。提取模型发起的向量查询产生成本。

要产出工作流的完整成本明细，成本必须沿整个调用树向上流动。每个智能体报告自己的成本，父级将子级的成本汇总到自己的成本记录中。这种递归组合是一个根本性的架构需求，无法用顶层监控来近似替代。

控制平面看到编排器的成本（它发起的 API 调用），但看不到子智能体在其自身基础设施内产生的成本。即使它能查询这些成本，将它们组装成一棵连贯的树也需要所有智能体、跨所有组织一致产出的共享成本记录格式。这是一个协议层需求，而非任何单一平台的功能。

信封必须嵌套才能实现预算执行

仅在编排器层面进行预算执行是不够的。如果编排器为一个工作流分配了 100 美元的预算，并将其中 40 美元委派给研究智能体，研究智能体必须独立执行这 40 美元的限额，包括跨越其自身的子委派。如果研究智能体将 20 美元委派给提取服务，提取服务必须执行这 20 美元的限额。

这要求预算信息沿调用树向下传播，成本信息沿调用树向上传播，在每一层、跨越每一个边界，包括组织边界。位于智能体外部的控制平面无法在智能体内部执行预算。预算执行必须在协议中：在向下流动的上下文和向上流动的信封中。

治理需要随数据流转的字段级粒度

数据治理不能在文档级别进行评估。一份文档可能包含四个不同分类级别的字段：公开（公司名称）、内部（合同金额）、机密（商业秘密）和受监管（社会安全号码）。适当的治理要求每个字段的分类随数据在每一个处理步骤中流转，并且在每个边界根据存在的分类来评估治理策略。

这种字段级元数据必须是数据记录的一部分，而非外部监控系统的一部分。当数据跨越组织边界，即当智能体 A 将数据发送给不同公司的智能体 B 时，分类标签必须随数据流转，以便智能体 B 的基础设施能够根据实际存在的内容执行自身的治理策略。智能体 A 所在组织的外部控制平面无法执行智能体 B 的治理策略。治理元数据必须是自描述和自包含的。

真正重要的类比

复式记账法发明于 15 世纪。它没有取代商人既有的工具，它是一个新的基础设施品类，使复杂商业成为可能。在复式记账法之前，商人用叙事式账簿追踪交易。对于简单的生意，这行得通。但随着贸易变得更加复杂（跨越多个合伙人、多种货币、多个时间段），叙事式账簿失灵了。你无法核实余额，无法侦测欺诈，无法编制第三方可审计的财务报表。

复式记账法通过施加一个结构性约束来解决这个问题：每笔交易必须记录在两处，一借一贷，总额必须平衡。这个约束看似简单，却使之后的一切成为可能：财务报表、审计、公司治理、投资者信心，乃至现代经济。约束本身就是基础设施。

智能体经济需要它的等价物。不是关于发生了什么的叙事式日志，即当前 API 调用日志和计费仪表盘的路径。而是一种结构化的问责记录格式，能够递归组合、随数据流转、在每个边界执行约束、并产出任何参与方都可以独立审计的工件。

这不是可以嫁接到现有智能体框架上的东西。不是工作流旁边的仪表盘。不是从外部观察的监控服务。它是一个基础设施品类：对智能体经济的根本性，如同复式记账法对金融经济的根本性。

这个品类的面貌

不预设具体实现，智能体经济的问责层必须具备以下属性：

执行上下文向下流动。 当智能体启动工作时，结构化上下文必须传播到涉及的每一个子智能体。这个上下文携带预算、治理策略、追踪信息和安全要求。链条中的每一个智能体在开始工作之前就知道适用的约束。

执行信封向上流动。 当智能体完成工作时，结构化信封必须随结果一起返回。这个信封携带成本明细、引证链、治理决策和安全裁决。链条中的每一个智能体都可以检视其下方发生了什么。

信封可以组合。 当父智能体汇总子智能体的结果时，信封层层嵌套。父级成本包含子级成本。父级引证包含子级引证。父级治理记录包含子级治理记录。最终的工件是整个工作流完整的、层级化的记录。

协议跨越组织边界运作。 由两个不同组织运营、运行在两套不同基础设施上的两个智能体，无需共享任何基础设施即可交换执行上下文和信封。协议是自描述的：接收方无需与发送方事先协调即可解读问责记录。

合规是渐进的。 并非生态系统中的每一个智能体都需要从第一天起就实现完全问责。合理的合规模型可以从基础追踪开始（每次操作获得一个 ID 和一个持续时间），进阶到成本追踪（每次操作报告消耗了什么），再进阶到引证支持（每个论断链接到来源），最终达到完全治理（每个数据边界执行分类和授权策略）。组织根据自身的风险状况采用相应的级别，生态系统随时间变得更加可问责。

问责层独立于通信层。 A2A 处理智能体如何发现彼此和相互通信。问责层处理智能体如何记录自己所做的事情。两者互补而非竞争。一个智能体可以通过 A2A 通信，同时通过执行信封协议记录问责信息。通信层说的是”智能体 A 正在与智能体 B 对话”。问责层说的是”这次对话花了多少钱、涉及了什么数据、以及适当的治理是否到位”。

品类缺口

智能体经济所需的基础设施不对应任何现有的产品类别：

它不是可观测性（Datadog、New Relic）。可观测性工具监控系统健康：CPU 使用率、错误率、延迟百分位数。它们回答的是”系统运行得好吗”，而非”这个具体工作流花了多少钱、每一个论断来自哪里”。

它不是安全（防火墙、控制平面、策略引擎）。安全工具防止未经授权的行动。它们回答的是”这个行动是否应该被允许”，而非”这个行动所属工作流的完整成本分解是什么”。

它不是计费（Stripe、API 计量）。计费系统按使用量收费。它们回答的是”客户欠多少钱”，而非”成本如何在三个组织中的七个智能体之间分解”。

它不是合规（审计日志平台、GRC 工具）。合规工具记录事件。它们回答的是”发生了什么”，而非”从源文档到最终论断的溯源链是什么，每个组织边界是否都获得了授权”。

问责层位于所有这些之下，提供原始记录，从中可以导出可观测性指标、安全策略、计费计算和合规报告。它是使所有其他层成为可能的记账层。

这个品类尚不存在。智能体经济正在没有它的情况下自行组装：框架在成熟，通信标准在巩固，硬件在降价，智能体在每一次 API 调用中跨越组织边界。但记账层不在。

这个真空不只是一个缺失的功能。它是一个缺失的地基。而七股力量向同一终点的汇聚保证了这个地基终将被建造。唯一的问题是它是否被正确地建造（作为一个跨整个生态系统可组合的协议级标准），还是被错误地建造，变成碎片化的、私有的解决方案，每个平台各自实现，制造出合规领域的浏览器大战。

历史表明协议路径终将胜出。TCP/IP 胜过了私有网络协议。HTTP 胜过了私有 Web 协议。HTTPS 胜过了私有安全方案。在每一个案例中，能够跨生态系统组合的开放协议成为了标准，而私有替代方案成为了历史注脚。

智能体经济的问责协议将遵循同样的模式。问题在于谁来建造，以及何时。

第 3 章

规律

历史总在重演。每一次技术革命（商业、互联网、国际银行业、容器化软件）最终都会催生一个问责层。能力总是先行，问责基础设施紧随其后。而问责层的生命力，永远超越它所追踪的那些工具。

智能体经济就是当下的这场革命。AI 智能体正在自主推理、自主消费、自主产出影响重大决策的结论；而这一切，至今没有标准化的问责层。历史的规律告诉我们，这必将改变。唯一的问题是何时改变，以及它究竟是被有意设计出来的，还是在一系列失败之后，由互不兼容的补丁勉强拼凑而成。

章节

每一次革命都会催生问责层：四个历史案例，复式记账法、SSL/TLS、SWIFT、容器标准。
比工具更持久的那一层：为什么问责基础设施比它所追踪的工具更为持久。工具在竞争中更替；基础设施在积累中沉淀。

每一次革命都会催生问责层

技术史上有一个反复出现、近乎铁律的规律。每当一种新能力改变了价值的创造、交换或存储方式，第二层结构便会随之诞生：它不是能力本身，而是让能力变得可信赖的基础设施。这个问责层来得比能力更晚，增长得更慢，吸引的关注更少，却最终比它所追踪的能力更为根本。

这个规律在有史可查的记录中至少重复了四次。每一次都揭示出相同的结构逻辑。每一次的结局也如出一辙：问责层的生命力超越了原始革命所催生的工具、平台和公司。

复式记账法（1494年）

商业自古有之。人类从事贸易、放贷、偿债，至少已有五千年。公元前三千年的苏美尔泥板上记录着交易：大麦的数量、白银的重量、债务人的姓名。腓尼基人在地中海上往来经商。罗马共和国的强盛，部分依托于其商业网络。中世纪的威尼斯是欧洲最富有的城市，是连接东西方的贸易枢纽。

所有这些商业活动，都在没有标准记录体系的情况下运转。

商人自然有账本。但每个商人的记账方式各不相同：有的追踪资产，有的追踪负债，极少有人以可供独立验证的方式同时记录两者。一个商人可以声称自己盈利丰厚，实际上却在持续亏损，而除非逐笔审计每一笔交易，没有人能证明他在说谎。陌生人之间的贸易依赖个人信任，或者依赖为双方担保的中间人。商业的边界，就是声誉所能触及的半径。

1494年，方济各会修士、数学家卢卡·帕乔利出版了《算术、几何、比与比例大全》。在这部百科全书式的著作中，夹着一篇27页的记账论文《簿记详论》，描述了一种将每笔交易记录两次的方法：一次记为借方，一次记为贷方。借贷双方必须平衡。若不平衡，则有错误，而错误是可被发现的。

帕乔利并非复式记账法的发明者。佛罗伦萨和热那亚的商人在他出版之前至少一个世纪就已使用各种变体。帕乔利做的是将其标准化：以一种可以被教授、学习和普遍采用的形式写下来。他将一种实践转化为了一种协议。

其后果是结构性的。有了标准化的记账体系，一个从未见过某商人的第三方就能审计他的账簿。银行可以通过审查借款人的账本来评估其信用。合伙企业可以公平地清算和分配资产，因为有了一份关于收入、支出和债务的共享、可验证的记录。商业得以超越个人信任的半径而扩展。

复式记账法并没有创造商业。它使商业在规模化运行时变得可信赖。它使商业可被陌生人审计。它为银行业、保险业、股份公司乃至整个现代资本主义奠定了基础。美第奇家族的银行采用了它。荷兰东印度公司（第一家现代意义上的企业）没有它就不可能存在。伦敦证券交易所、现代税收制度、金融服务的整个监管体系，同样如此。

五个世纪之后，复式记账法仍然是地球上每一套会计系统的基础。佛罗伦萨的商人早已消逝。美第奇家族的银行在几个世纪前就已关门。他们交易的那些具体商品（佛罗伦萨的羊毛、威尼斯的玻璃、东方的香料）已成经济史中的注脚。但追踪那些交易的记账体系，至今仍运行在每一个 QuickBooks 安装、每一套 SAP 部署、每一台 Bloomberg 终端之中。问责层的生命力超越了它所追踪的一切。

SSL/TLS（1995年）

互联网存在了二十六年，人们才找到在上面做生意的方法。

ARPANET 在1969年发出第一条消息。电子邮件在1971年问世。TCP/IP 在1983年完成标准化。万维网在1991年上线。到1993年，数百万人已经可以浏览网页、发送邮件、传输文件。全球网络的技术基础设施已经就位。

但没有人愿意在浏览器里输入自己的信用卡号。

原因很简单：HTTP 以明文传输所有数据。用户浏览器与 Web 服务器之间的每一个数据包，任何能截获网络流量的人都可以读取，无论是用户的 ISP、大学的网络管理员，还是同一局域网上的任何人。通过 HTTP 发送信用卡号，相当于把它写在明信片上，经过十几个陌生人的手传递。

1995年2月，Netscape Communications 发布了 SSL 2.0，即安全套接层协议。SSL 在应用层（浏览器）与传输层（TCP）之间加入了一个加密层。浏览器与服务器执行一次密码学握手，建立共享会话密钥，随后加密所有传输数据。浏览器中出现一个锁形图标，表示连接安全。

SSL 2.0 存在严重安全缺陷，1996年被 SSL 3.0 取代，后者又在1999年被 TLS 1.0（传输层安全协议）取代。协议不断演进：2006年的 TLS 1.1，2008年的 TLS 1.2，2018年的 TLS 1.3，每一个版本修补漏洞并提升性能。当前标准 TLS 1.3 在协议层面与 SSL 2.0 已截然不同，但其架构角色完全一致：应用与网络之间的加密与认证层。

TLS 没有创造互联网。互联网早已存在。TLS 创造的是互联网经济。没有它，就没有 Amazon，没有 eBay，没有网上银行，没有 SaaS，没有云计算，没有 API 经济。所有这些都依赖于一种能力：在公共网络上发送敏感数据时，确信数据不会被截获或篡改。TLS 提供的正是这种确信。

TLS 所需的基础设施同样意义重大。证书颁发机构（如 Let’s Encrypt、DigiCert、Sectigo）验证 Web 服务器的身份并颁发浏览器信任的加密证书。证书颁发体系并不完美，有时甚至会出现灾难性的问题（2011年 DigiNotar 被攻破就是一个经典案例）。但这套体系运转得足够好，以至于数十亿人每天都在用它传输金融数据。对于大多数安全基础设施而言，能做到这一点已属难能可贵。

今天，TLS 是隐形的。用户不会想到它。开发者不会想到它。它是一个已经解决的问题；正因为它已被解决，构建在其上的一切都可以忽略它。这正是成熟问责基础设施的标志性特征：它变得如此可靠、如此无处不在，以至于消融于背景之中。没有人写关于 TLS 的博客文章。每个人都依赖它。

最初实现 SSL 的浏览器已经消失。Netscape Navigator，那个显示第一个锁形图标的浏览器，于2008年停止维护。Internet Explorer，那个推动了1990年代末浏览器大战的产品，于2022年退役。Web 服务器变了。编程语言变了。公司变了。但信任层，那个让在公共网络上安全传输敏感数据成为可能的协议，依然存在。它被不断优化、改进、扩展，但其架构角色三十年未变。未来三十年，也不会改变。

SWIFT（1973年）

SWIFT 出现之前，国际银行业已经存在了数百年。美第奇家族的银行在十五世纪就跨越欧洲转移资金。罗斯柴尔德家族在十九世纪建立了泛欧金融网络。到二十世纪中叶，数百个国家的数千家银行都在进行跨境交易：代理银行业务、信用证、外汇结算。

这套体系在运转。勉强运转。

SWIFT 出现之前，银行间的国际通信使用电传，一种通过电话线传输打字信息的电传打字机网络。伦敦的一家银行要向东京的一家银行汇款，需要编写一条电传消息，注明金额、货币、收款人和路由指令。消息由人工操作员输入，逐字符传输，再由另一端的人工操作员接收并录入本地系统。

问题是可以预见的。格式不统一：每家银行都有自己的消息格式、字段顺序和缩写规则。错误频发：打错一个账号、颠倒金额中的一位数字、误解一条指令，就可能导致数百万资金被错误转出。欺诈可行：验证电传消息的真实性依赖于”测试密钥”，即手工计算的验证码，可以被猜测、窃取或误用。处理速度缓慢：一笔国际汇款可能需要数天，消息在中转银行排队等候，被人工解析，再重新录入当地系统。

1973年，来自15个国家的239家银行共同创立了环球银行金融电信协会（SWIFT）。创建的前提简单而直接：标准化消息格式。

SWIFT 定义了一套消息类型（MT103用于客户汇款，MT202用于银行间汇款，MT940用于账户对账单），包含必填字段、标准化格式和机器可读的结构。每一家加入网络的银行都同意以这种格式发送和接收消息。消息通过 SWIFT 自有的安全网络传输，使用密码学密钥而非人工测试码进行认证。

效果是颠覆性的。电传时代需要数天的汇款，在 SWIFT 上几小时就能完成。差错率降低了数个数量级，因为消息由机器解析而非人工判读。欺诈变得极其困难，因为认证从程序化变成了密码学化。最重要的是，任何 SWIFT 成员银行都可以与任何其他成员银行开展业务，无需就消息格式、认证方式或处理流程签订双边协议。标准本身就是协议。

今天，SWIFT 连接着超过200个国家和地区的11,000多家金融机构，每天处理约4,400万条消息。其消息标准已如此深入地嵌入全球金融的管道之中，以至于成为事实上的强制要求：一家无法发送和接收 SWIFT 消息的银行，就是一家无法参与国际商务的银行。

SWIFT 没有创造国际银行业。它出现之前的数百年间，银行早已在跨境转移资金。SWIFT 创造的是国际银行业的标准化问责层：一种共享语言，使跨境交易变得可靠、可审计、可扩展。消息标准比任何单个银行都更为持久。SWIFT 启动以来，银行不断被创立、合并、收购和清算。每一家都采用了同一套消息标准，而标准在它们各自的兴衰沉浮中岿然不动。

容器标准（2013-2015年）

Docker 出现之前，部署软件是一门手艺活。

每个应用都有自己的依赖：特定版本的编程语言、库、系统包和配置文件。在一台新服务器上安装一个应用，意味着复制出完全相同的依赖栈，而要做到完全一致，实际上几乎不可能。”在我机器上能跑”成了一句经典吐槽，因为它描述的是一个真实的工程问题：开发环境与生产环境之间的差异，是持续、昂贵的故障根源。

运维团队用配置管理工具（Puppet、Chef、Ansible）将服务器配置编码为脚本来应对这一问题。但这些脚本脆弱、与环境强绑定，并且催生了一整个新的基础设施维护品类。疗法往往和疾病一样复杂。

2013年3月，Docker 推出了容器：一种轻量、可移植的打包格式，将应用及其全部依赖封装在一起。Docker 容器在开发者的笔记本上和在生产服务器上的运行方式完全一致，因为它携带了自己的整个运行环境。容器抽象掉了底层操作系统，正如虚拟机曾经抽象掉底层硬件，但容器启动更快、存储更小、运行成本更低。

Docker 并非容器化技术的发明者。Linux 容器（LXC）自2008年起就已存在。Solaris Zones 可以追溯到2004年。FreeBSD jails 则始于2000年。Docker 所做的是标准化打包方式，并使之易于使用。开发者只需编写一个 Dockerfile（几行声明式配置），就能生成一个可在任何安装了 Docker 的地方运行的容器镜像。

随后建立起来的生态系统以这种标准化为根基。Google 在2014年发布的 Kubernetes 标准化了容器编排：如何在一组机器上调度、扩展、监控和管理容器。2015年成立的开放容器倡议组织（OCI）标准化了容器镜像格式本身，将标准从 Docker 的具体实现中解耦出来。

OCI 标准就是这个故事中的问责层。它定义了容器镜像的样貌：文件格式、层结构、清单模式、分发协议。任何生成 OCI 兼容镜像的工具，都能部署到任何消费 OCI 兼容镜像的平台上。该标准供应商中立，由 Linux 基金会维护，被每一家主要云服务提供商、每一个容器注册中心和每一个容器运行时所实现。

Docker 的商业命运已经衰落。Mirantis 在2019年收购了 Docker Enterprise。Docker Hub 实施了速率限制，迫使组织转向替代注册中心。Docker 运行时本身在大多数 Kubernetes 部署中已被 containerd 取代。作为公司的 Docker，已是2015年时盛况的一个影子。

但容器标准依然屹立。它之所以屹立，正是因为它不是 Docker 的标准，而是所有人的标准。Amazon 的 Elastic Container Registry 使用 OCI。Google 的 Artifact Registry 使用 OCI。GitHub 的 Container Registry 使用 OCI。每一条构建容器镜像的 CI/CD 流水线都在生产 OCI 制品。标准的生命力超越了催生它的公司，正如复式记账法的生命力超越了佛罗伦萨的商人。

规律的结构

五个世纪间的四个案例。不同的技术，不同的行业，不同的时代。同一个规律。

能力总是先行。 商业、互联网、国际银行业、软件部署，每一次都是价值创造或交换方式的革命。每一次都产生了巨大的经济活动。每一次在最初都缺乏标准化的问责机制。

问责层随后到来。 记账法、TLS、SWIFT、OCI，每一个都是使能力变得可信赖、可审计、可扩展的基础设施。它们都没有创造能力本身。但能力要充分释放潜力，每一个都不可或缺。

问责层最终比能力本身更为根本。 这是违反直觉的部分。你本会预期能力（互联网、国际银行业、容器化部署）比追踪它的基础设施更重要。但问责层在积累中复合增长，而工具在竞争中更替。那些实现能力的浏览器、银行和容器运行时，始终在不断更迭。而记录发生了什么的协议，却持续存在数十年。

原因是结构性的。一种能力需要一个生态系统。一个生态系统需要信任。信任需要标准。标准需要协议。协议位于依赖链的根部。它之上的一切都可以变：工具、平台、公司、商业模式。协议之所以持续存在，是因为改变它需要生态系统中每一个参与者的协调行动。这种协调成本如此之高，以至于实际上几乎从未发生。取而代之的是协议的渐进演化（TLS 1.0到1.3，SWIFT MT到MX），在保持向后兼容的同时提升能力。

这就是为什么协议是技术领域中最持久的产物。TCP/IP 已有四十年历史。SMTP 已有四十二年。HTTP 已有三十五年。这些协议的生命力超越了所有构建在其上的公司、产品和商业模式。它们也将超越当前这一代工具的替代者。

当下这一刻

智能体经济就是这场革命。AI 智能体（代表人类和组织自主推理、自主决策、自主行动的软件系统）代表着工作方式的结构性变革。智能体经济正在催生自主计算的爆发式增长，智能体调用其他智能体，发起 API 请求，处理数据，生成结论，执行决策，其规模正以指数级增长。

这场革命正在没有问责层的情况下运行。

当一个策略智能体调用一个研究智能体，后者又调用一个数据处理智能体，横跨三个组织、三个运行时和三个计费系统，目前没有标准来追踪成本在这条链路上的分配。没有标准来将结论追溯至其来源。没有标准来在每个组织边界上执行数据治理。没有标准来事后审计这些工作。

各个部件以孤立的形式存在。个别平台追踪自己的成本。个别框架实施自己的安全检查。个别公司建立自己的审计日志。但没有可以跨越组织边界、跨越智能体框架、跨越计算提供者运作的共享协议：没有复式记账法，没有 TLS，没有 SWIFT，没有 OCI。

历史的规律告诉我们，这将会改变。规律告诉我们，它必须改变。每一次革命最终都会催生问责层，因为没有它，革命就无法充分释放其潜力。没有标准化记账法，商业就无法超越本地信任网络的范围。没有加密通道和身份验证，互联网就无法支撑商业活动。没有标准化消息格式，国际银行业就无法在全球尺度上运转。没有标准化容器格式，软件部署就无法实现可移植和可复现。

没有标准化的问责基础设施，智能体经济就无法达到其潜在规模。部署智能体的组织需要知道这些智能体花了多少钱、得出了什么结论及其原因、接触了哪些数据以及数据处理是否合规。各主要司法管辖区正在出台的法规（欧盟AI法案、美国各州的AI法律、医疗健康、金融和国防领域的行业特定要求）正在为这种问责能力创造法律强制义务。

唯一的问题是问责层何时出现，以及它究竟是被有意地设计为一套连贯的协议，还是在第一次重大失败迫使行业面对现实之后，由互不兼容的补丁勉强拼凑而成。历史表明两种结果都有可能。TLS 是由 Netscape 的一个小团队在危机发生之前有意设计的。SWIFT 是由一个银行联盟在电传系统崩溃之前有意设计的。但技术史上同样不乏事后补救的案例：问责层被追溯性地、痛苦地、以远超前期设计的成本拼装起来。

智能体经济正处于有意设计仍然可行的窗口期。革命已经开始，但尚未达到互不兼容的补丁变得根深蒂固的规模。协议仍然可以在它们必须被谈判之前就被设计出来。这个窗口终将关闭。它总是会关闭的。

比工具更持久的那一层

上一章确立了一个历史规律：每一次技术革命都会催生一个问责层。本章提出一个更尖锐的论断：问责层比它所追踪的工具更持久，最终也更具价值。

这并不符合直觉。工具是可见的。工具是令人兴奋的。人们围绕工具建立职业生涯，公司为开发工具融资数十亿。没有人因为构建问责基础设施而出名。没有人为一个新的成本追踪协议发布激动人心的新闻稿。问责层在正常运转时是隐形的，只有在失败时才会被注意到。

然而。问责层在时间尺度上总是赢家。在普及程度上总是赢家。在价值上同样总是赢家：不是因为它吸引了更多关注，而是因为它捕获了更多依赖。

为什么基础设施比工具更持久

回顾四次革命中工具的命运。

商业。 美第奇银行是十五世纪欧洲最具统治力的金融机构。它们资助教皇、出资战争、赞助了文艺复兴。美第奇银行在1494年倒闭，恰恰是帕乔利发表记账论文的那一年。率先采用复式记账法的银行没能活过那个世纪。而那套会计体系已经延续了五个世纪，至今仍在。

佛罗伦萨商业的具体工具（汇票、船队航线、羊毛贸易）如今是博物馆的陈列品。但账本仍在每一位会计师的桌上。不是美第奇家族使用的那种特定账本格式，而是每笔交易记录两次的原则（借方与贷方，永远平衡）已嵌入公认会计准则（GAAP）、国际财务报告准则（IFRS）以及地球上每一套财务报告标准之中。商业所需的工具是资本、船舶和贸易航线。商业所需的基础设施是记账法。基础设施比工具多存续了五百年。

互联网经济。 创造了 SSL 的 Netscape 在1999年被 AOL 收购并实际上被拆解。AOL 本身又与时代华纳合并，完成了商业史上最灾难性的并购之一，合并后的实体最终减记了超过1,000亿美元。曾在2000年代初期以超过90%的市场份额统治浏览器市场的 Internet Explorer，于2022年被微软退役。目前占主导地位的 Google Chrome，终有一天也会被取代。

浏览器在变。渲染引擎在变。背后的公司在变。TLS 始终如一。每一款曾取得显著市场份额的浏览器都实现了 TLS。每一台 Web 服务器都在运行 TLS。每一次 API 调用、每一个 webhook、每一次 OAuth 流程、每一笔互联网支付交易，都在 TLS 加密的连接上传输。这个协议在互联网架构中的嵌入深度，超过了任何单一产品、公司，乃至编程语言。

2014年成立的非营利证书颁发机构 Let’s Encrypt 已颁发超过40亿份证书。截至2024年，约82%的网页加载使用 HTTPS。支撑这一切的信任基础设施（证书颁发机构层级体系、证书透明日志、撤销机制）比任何依赖它的单个应用都更复杂，也更关键。而它是隐形的。用户看到的是一个锁形图标。他们看不到证书链、OCSP 装订、HSTS 头、CT 日志条目。基础设施已经消融于背景之中，而这正是它已经胜出的最确切标志。

国际银行业。 SWIFT 创立以来的数十年间，银行业经历了239家创始机构当年无法想象的变革。雷曼兄弟倒闭。贝尔斯登被摩根大通吞并。华盛顿互惠银行成为美国历史上最大的银行倒闭案。数以千计的银行被创立，数以千计被合并或清算，从1997年亚洲金融危机到2008年全球金融危机，再到2010至2012年的欧洲主权债务危机，整个国家的银行体系在一次次危机中被重组。

贯穿这一切，SWIFT 的消息标准始终不变。银行来了又走。让它们得以通信的消息格式留了下来。MT103消息至今仍是客户间国际汇款的骨干。SWIFT 网络每天处理数千万条消息。2022年俄罗斯被部分切断与 SWIFT 的连接作为地缘政治制裁时，这一行动的重大意义恰恰证明了消息层已变得多么根本：被排斥在协议之外被视为经济战争行为，其严重程度堪比冻结一个国家的外汇储备。

SWIFT 目前正在从其传统的 MT 格式向 ISO 20022 标准（MX 消息）过渡。这一过渡已持续多年，还需更多年才能完成。即使在过渡中，原则依然不变：所有参与者同意使用的标准化共享消息格式。格式在变。架构角色不变。

容器标准。 Docker 的轨迹是最为压缩的案例。2014至2015年间，Docker 是企业技术领域最炙手可热的公司之一。它融了超过2.7亿美元的风险投资。它的大会 DockerCon 吸引了数千名参会者。每一位 DevOps 工程师都在学习 Docker。这家公司似乎注定要成为下一个 VMware：定义软件部署方式的平台。

到2019年，Mirantis 收购了 Docker Enterprise。到2020年，Kubernetes 已取代 Docker Swarm 成为默认编排平台。到2022年，Kubernetes 自身也弃用了 Docker 运行时，转向 containerd 和 CRI-O。作为产品的 Docker 仍被广泛用于本地开发，但作为基础设施平台的 Docker 已被取代。

然而，OCI 标准却逐年变得更强。它变得更强，恰恰因为它不是 Docker 的标准。Amazon、Google、微软以及每一家主要云服务提供商都实现了 OCI，因为它是供应商中立的。容器注册中心纷纷涌现：Docker Hub、Amazon ECR、Google Artifact Registry、GitHub Container Registry、Harbor，全都使用同一种镜像格式。标准的价值随着 Docker 主导地位的下降而上升，因为标准服务的是整个生态系统，而 Docker 服务的是 Docker 自己。

结构性的解释

为什么这种情况反复发生？为什么问责层总是比工具更持久？

答案在于依赖深度。在任何生态系统中，被所有其他组件所依赖的部分是最难替换的。而问责层恰恰位于依赖树的根部。

以 TLS 为例。要替换 TLS，需要每一家浏览器厂商、每一种 Web 服务器实现、每一个 CDN、每一个负载均衡器、每一个 API 网关、每一个反向代理、每一个带有网络栈的 IoT 设备、每一个移动操作系统和每一个桌面操作系统的协调行动。这种协调成本如此之高，以至于实际上永远不会发生。取而代之的是 TLS 的渐进演化（从 TLS 1.2 到 TLS 1.3），在保持向后兼容的同时提升安全性。协议的稳定性是其普及程度的函数。

这形成了一个飞轮效应。因为协议稳定，更多工具在其上构建。因为更多工具在其上构建，更改协议的协调成本上升。因为协调成本上升，协议变得更加稳定。每一个循环都强化了前一个。

相比之下，工具在竞争。竞争意味着更替。Netscape 与 Internet Explorer 竞争，后者与 Firefox 竞争，Firefox 又与 Chrome 竞争。每一次更迭对用户来说都是痛苦的，但却是可行的，因为切换成本与单个工具的复杂度成正比：你换的只是一个应用。底层的协议没有变，这意味着切换可以在不重建整个基础设施栈的情况下实现。

这是关键洞察：工具在竞争中更替。基础设施在积累中复合。 一个比竞争对手好10%的工具可以夺取市场份额，因为切换成本与该工具的复杂度成正比。一个比既有标准好10%的协议却无法赢得采用，因为切换成本与整个生态系统的复杂度成正比。工具靠做得更好来取胜。协议靠先发且足够好来取胜。

最不光鲜的那一层

这个规律有一个推论，解释了为什么问责基础设施总是建设不足：它是最不光鲜的东西。

没有人因为构建 TLS 而出名。Taher Elgamal 偶尔被称为”SSL 之父”，但他并非家喻户晓。Tim Berners-Lee 因发明万维网而闻名。Marc Andreessen 因 Netscape 而闻名。那些构建了使 Web 具备商业可行性的信任层的人们，只是历史的注脚。SWIFT 的创始者们并不出名。SWIFT 本身是一个合作组织，不是公司：它没有股价，没有 IPO，没有风险投资故事。它的设计初衷就是无趣的。Solomon Hykes，Docker 的创始人，颇有知名度。编写 OCI 镜像规范的那些人，在一小群基础设施工程师之外几乎无人知晓。

这种规律反映了价值感知与价值创造之间的根本不对称。工具解决的是可见的问题。它们拥有热爱自己的用户，有让投资者兴奋的演示日，有向右上方攀升的指标。基础设施解决的是不可见的问题。基础设施正常运转时，无人关注。一旦失败，所有人都把矛头指向工具。

对于智能体经济而言，这种不对称有一个直接的启示：最有价值的基础设施（问责层）将获得最少的关注、最少的资金和最少的人才。那些构建更好智能体、更好模型、更好框架的公司将获得数十亿的投资。而构建这些智能体行为记录系统的公司，将难以说服任何人关心这件事。

直到第一次灾难性失败发生。直到某个智能体工作流产出了一份欺诈性分析报告，让一家金融机构损失数百万，而没有人能追溯结论是如何得出的。直到某个医疗智能体在三个组织边界上错误处理了患者数据，而没有人能还原究竟哪个组织应当负责。直到某家企业的 AI 支出在一个季度内翻倍，CFO 要求出具一份没有人能拿得出来的账单明细。

到那时，问责层突然就变得至关重要了。问题在于：到那时它是否已经存在，还是整个行业不得不在危机模式下构建它，花费高昂、仓促行事、质量低劣。

智能体经济缺失的那一层

智能体经济此刻所处的位置，恰恰就是这些早期革命在问责层出现之前所处的位置。

商业在没有标准化记账法的情况下存在了数千年。商人成功地进行贸易、积累财富、支撑帝国运转。但商业无法超越个人信任的半径来扩展，而当事情出了问题（一笔有争议的债务、一项欺诈性索赔、一个破产的合伙人），没有共享的体系来还原究竟发生了什么。

互联网在没有 TLS 的情况下存在了二十多年。人们用它收发邮件、共享文件、浏览网页。但敏感交易无法进行，这意味着互联网的经济潜力只是其本可达到水平的一小部分。互联网是有用的。但它尚不值得信赖。

国际银行业在没有 SWIFT 的情况下存在了数百年。资金跨境流动。但它流动缓慢、不可靠，且伴随着限制了跨境商务规模和速度的欺诈风险。

软件部署在没有容器标准的情况下存在了数十年。应用被部署、运维和维护。但每一次部署都是独一无二的雪花，每一个环境都各不相同，管理基础设施的运营成本拖累了整个软件行业。

智能体经济如今在没有标准化问责基础设施的情况下运行。智能体被部署、运维，并在产出价值。但成本是不透明的，结论是不可追溯的，数据治理是临时拼凑的，而那些代表最高经济价值的跨组织工作流在结构上是不可信赖的。

工具很出色，而且在不断变好。GPT-4、Claude、Gemini、Llama，每一代都比上一代更强大。框架在激增：LangChain、CrewAI、AutoGen、Semantic Kernel。智能体间的通信协议正在涌现：Google 的 A2A 处理智能体之间的发现、任务管理和消息交换。能力层是强健的，且在快速进步。

缺失的是位于能力层之下的一切。告诉你的不仅是花了多少钱，还有哪个智能体花的、为什么花的成本追踪。将一个结论沿整条执行树追溯到产出它的具体数据、模型和提示词的溯源链。在每一个组织边界上（而非仅在入口处）执行同意和分类的数据治理。让智能体在预算约束下动态获取资源的算力分配。当三个组织在一个工作流上协作时处理支付的结算机制。

这些都不是某个特定智能体平台的功能。它们是整个智能体生态系统所需要的基础设施，就像每个浏览器需要 TLS、每家银行需要 SWIFT、每个容器运行时需要 OCI 一样。这种基础设施必须是共享协议，而非专有平台，因为其全部意义就在于跨越组织和技术边界的互操作性。

价值的层级

如果历史可以为鉴，智能体经济中的价值层级将随时间发生逆转。

短期内，最有价值的公司将是那些构建最好工具的公司：最好的智能体、最好的模型、最好的框架。风险投资将流向这里，人才将汇聚于此，媒体关注将聚焦于此。

中期，最有价值的基础设施将是那些工具所依赖的协议。智能体通信协议。问责协议。算力分配协议。数据治理协议。这些将积累依赖关系：每一个工具都会实现它们，而实现它们将成为参与生态系统的入场门槛。

长期来看，协议将是最持久的产物。具体的智能体模型每十八个月就会被替换。框架每三到五年会更迭一轮。构建它们的公司会合并、转型或消亡。协议将持续存在，渐进演化，保持向后兼容，每年都更深地嵌入基础设施栈。

这不是一个预测。这是一个已经重复得足够一致、可以被视为结构性的规律。TCP/IP 已有四十余年。SMTP 已有四十余年。HTTP 已有三十五年。这些协议的生命力超越了所有构建在其上的公司、产品和商业模式。今天构建了最好智能体的公司，不会是2028年构建最好智能体的公司。但记录智能体行为的协议，在2028年、2035年乃至更远的未来，仍将是同一个协议，或其直系后裔。

构建那个协议，是智能体经济中最有价值、也最不光鲜的工作。它产出的是生态系统所需的基础设施，创造的是最持久的价值，吸引的却是最少的关注。

问责层终将出现。唯一的问题是，它是由理解这一规律的人有意设计出来的，还是在失败迫使行业面对现实之后，被痛苦而昂贵地拼装而成。

第 4 章

技术栈的要求

如果前文所述的规律成立，如果智能体经济必须催生一个问责层，那么这个问责层究竟是什么样的？不是某个单一协议，而是一个由七层构成的技术栈，每一层都建立在下一层之上：问责、算力、结算、信任、执法、代理身份与市场。它们共同构成了一套完整的基础设施，用于追踪成本、溯源结论、治理数据、分配资源，以及在组织边界之间完成交易清算。

整个技术栈建立在一个根基之上：主权。如果基础设施被第三方控制，问责保障便毫无意义。而技术栈本身必须是一个开放协议，而非专有平台，因为其核心目的正是实现跨越一切边界的互操作性。

章节目录

七层架构：从问责到市场的完整基础设施栈。
主权作为根基：技术栈之下的架构前提，数据驻留、网状网络、硬件经济学与离线部署。
协议、平台与组合问题：一个具体的跨组织场景、执行信封机制，以及为何这一切必须是开放协议。

七层架构

智能体经济的问责基础设施并非一个协议，而是一个由七层构成的技术栈。每一层建立在下一层之上，每一层解决一个不可由其他层替代的独特问题。它们共同构成了自主 AI 系统在组织边界之间大规模运行所必需的完整基础设施。

这些层并非理论推演。它们直接对应着当下真实存在的问题：尚未解决，不断制造摩擦，持续引发故障。其中一些层已有早期实现，另一些仅存在于需求阶段。但所有这些层都不可避免，因为没有它们，智能体经济根本无法运转。

第一层：问责

它解决什么： 发生了什么。花了多少钱。数据去了哪里。

问责层是整个技术栈的基础。所有其他层都依赖于它，因为每一层都需要一种方式来记录发生的事情、归属成本，并维护审计轨迹。

问责层的核心需要三种能力。

按操作追踪成本。 当一个智能体工作流执行时，每一个操作（每一次大语言模型调用、每一次数据库查询、每一次子智能体调用）都会生成一条成本记录。这些记录形成一棵与执行树镜像对应的成本树。根调用者看到总成本，每个中间节点看到自己的子树。这些记录是精确的（十进制运算而非浮点数）、层级化的（成本递归组合）、跨组织的（每个成本节点标识产生该成本的组织）。

考虑其具体机制。一个工作流跨三个组织执行。组织 A 的编排器调用组织 B 的分析智能体，后者又调用组织 C 的数据服务。成本树记录如下：

编排器 [组织 A]（$47.83）
  分析智能体 [组织 B]（$35.21）
    数据查询 [组织 C]（$12.40）
    LLM 推理 [组织 B]（$22.81）
  LLM 推理 [组织 A]（$12.62）

每个组织看到自己的那部分。根调用者看到全部。成本记录即是账单。无需人工对账，无需估算，无需事后考古。

溯源链。 每一个结论都附带一条引用链，追溯到产生它的数据、模型与提示。当一个策略智能体说”该药物管线前景看好”时，溯源链将这一结论追溯至研究智能体的分析、数据智能体的检索，直至在某个特定日期从 FDA 数据库中获取的具体临床试验记录。这条链是递归的（执行树中的每个节点都记录了它消费了什么、产出了什么），而且它像成本树一样跨越组织边界。

溯源使智能体的输出可审计。没有溯源，智能体的结论只是一个断言；有了溯源，结论就成为一个可验证的主张，能够被检查、质疑和追溯。在受监管行业（医疗、金融服务、政府），溯源不是可选项，而是对任何产生用于重大决策的结论的系统的法律要求。

数据治理。 数据携带分类标签（公开、机密、受保护健康信息、个人身份信息），这些标签随数据在整个执行树中流转。在每一个组织边界处，会执行同意检查，验证接收组织是否被授权处理该分类级别的数据。违规行为被实时阻止，而非事后发现。

所有三者背后的结构性原则是一致的：上下文向下流动，结果向上流动。当根调用者发起一个工作流时，预算限制、治理规则和追踪上下文沿执行树向下流动。当智能体完成工作后，成本、引用和审计轨迹向上流动。问责层就是承载这些信息的信封：一个结构化容器，伴随每一项工作在系统中流转。

可以将其理解为”收据层”。每一次智能体交互都会产生一个信封。成本向上流。引用向上流。治理在每个边界处执行。信封是所发生之事的永久记录，作为执行过程的自然副产品而非事后法医重建。

第二层：算力

它解决什么： 资源分配。智能体如何在运行时获取、使用和释放计算资源。

算力层位于问责层正上方，因为每一个算力操作都会产生需要问责层追踪的成本、溯源记录和治理事件。

根本问题在于，智能体需要动态获取计算资源。一个索引工作流需要二十个工作节点运行十五分钟。一个分析流水线需要三个 GPU 实例运行一小时。一个研究智能体需要启动一个集群、处理一个语料库，然后在完成后释放资源。静态配置（预先决定运行多少工作节点并永久保持）在空闲期浪费金钱，在高峰期制约吞吐量。

动态算力分配需要四个构成完整生命周期的操作：

请求。 智能体描述它的需求：能力类型（CPU、GPU、特定硬件）、数量、预估时长和预算上限。”我需要 5 个 CPU 工作节点，持续 10 分钟，预算 $15。”

分配。 资源代理检查可用容量，然后给出以下结果之一：批准全部请求、批准部分分配（请求 5 个工作节点中的 3 个）、拒绝请求（容量不足或预算不够），或排队等待（容量即将可用）。分配是原子性的：不会出现两个智能体都检查可用容量、都看到足够、然后都尝试分配的竞态条件。

释放。 工作完成后，智能体释放其分配。容量返回可用池供其他智能体使用。

报告。 代理生成使用报告：实际时长、实际成本、消耗的工作节点。此报告直接注入问责层的成本树，形成从”使用了哪些算力”到”花了多少钱”再到”产出了什么”的无缝链条。

原子分配问题比看起来更难。当多个智能体同时从同一资源池请求工作节点时，分配必须串行化以防止过度承诺。这是经典的分布式系统问题：乐观并发（先检查再操作）在竞争下会失败，因为两个智能体都可能看到可用容量并同时尝试占用。悲观分配（使用类似 Redis Lua 脚本这样在服务端原子执行的机制）以串行化为代价保证一致性。对于算力层而言，串行化是正确的权衡。资源池的双重预订是系统性故障，而非可恢复的错误。

工作节点自注册解决了容量发现问题。当一个计算节点上线时，它向代理通告自己的能力；下线时，它注销。代理不需要一份静态的可用资源清单，而是动态发现它们。这意味着添加容量是零配置的：启动一个新节点，指向代理，它就出现在可用池中。这对于主权部署尤为重要：在这种场景下，组织添加的是异构硬件（台式机、服务器、GPU 工作站），而非配置统一的云实例。

算力层的扩展路线图分为三个级别，每个级别增加能力而不改变四操作协议：

第一级处理静态池：一组已知的工作节点、确定性容量、快速分配。容量耗尽时，答案是”拒绝”。

第二级增加弹性伸缩。当请求到达而无可用容量时，基础设施会创建容量：根据需求扩展新的工作节点实例，在需求减少时缩减。智能体的请求可能在容量配置期间短暂排队，但协议接口不变。

第三级增加硬件感知调度。GPU 分配请求不仅需要考虑”是否有 GPU 可用”，还要考虑”是哪一种 GPU”。H100 不同于 A100，A100 不同于 RTX 4090。调度器理解 GPU 拓扑、内存需求、多 GPU 分配与抢占。四个操作仍然一样，只是代理在执行分配时更加智能。

第三层：结算

它解决什么： 各方之间的清算。当多个组织协作完成一个工作流时，总要有人结清账单。

这一层目前在任何地方都不存在。

当组织 A 的智能体使用组织 B 的算力为组织 C 生产结果时，三个组织各自产生了成本、创造了价值。问责层追踪每个组织的支出。算力层追踪每个组织消耗的资源。但两层都不处理它们之间实际的价值转移。

如今，跨组织的 AI 结算依赖人工。组织 A 收到云服务商的月度账单，估算其中有多少是代表组织 C 的项目产生的，然后向组织 C 发送人工账单。组织 C 对估算提出异议。争议耗费数周才能解决。与此同时，组织 B 的算力提供商发来自己的账单，组织 A 必须将其与成本估算核对，然后加上利润转嫁给组织 C。

这就是专业服务计费的运作方式。它缓慢、近似，且摩擦与工作流中组织边界的数量成正比。在一个跨组织工作流是常态而非例外的智能体经济中，人工结算是阻碍市场运转的瓶颈。

结算层需要几项当前基础设施中不存在的能力。

多币种清算。 并非每笔交易都以同一货币（或同一单位）结算。算力成本以 GPU 时或工作节点分钟计量。LLM 成本以 token 计量。数据访问成本以查询或记录条数计量。结算协议必须处理多种计量单位，并按约定汇率在它们之间转换。

协议原生记账单位。 当来自不同组织的智能体协商某个工作流的价格时，它们需要一个共同的抽象单位，屏蔽底层成本结构。一个”智能体工作单位”，类似国际货币基金组织用来抽象各国货币的特别提款权（SDR），可以充当协议的原生计量单位。它不需要是加密货币，只需要是一个标准化的单位，使价格比较和结算在机制上变得简单。

自动对账。 问责层已经为每次工作流执行生产了精确的成本树。结算层应当消费这些成本树，自动生成清算指令。当成本树显示组织 A 欠组织 B $35.21、组织 B 欠组织 C $12.40 时，清算应被计算、验证并执行，无需人工干预，或至少不需要逐笔人工干预。

托管与争议解决。 当智能体产出的结果不令人满意（不准确、不完整或不合规），付费方需要一种机制来争议该费用。这需要某种形式的托管（在结果验证前冻结资金）和争议解决流程（在各方意见不合时由人工或自动仲裁）。

结算层是七层中最不成熟的。但它也是最重要的层之一，因为没有它，智能体经济就局限于单组织内的工作流，或者各方已有预设计费关系的工作流。结算层是将智能体经济从一系列孤立部署转变为一个运转中的市场的关键。

第四层：信任

它解决什么： 基于历史交易的声誉。哪些智能体和组织是可信赖的，以及在哪些方面可信赖。

如果一个智能体已经处理了 10,000 份法律文件，准确率达 99.2%，那么这个业绩记录应当能被任何考虑使用它的组织发现。如果一个组织参与了 500 次跨组织工作流而没有一次治理违规，那么这份合规历史应当是一项可验证的凭证。

这一层同样尚不存在。

如今，对 AI 智能体的信任是二元的：要么你使用一个智能体（因为某个人决定试试），要么不使用。不存在将历史性能、合规记录和可靠性指标聚合为可发现、可验证的信任评分的声誉基础设施。

信任层是智能体经济中的征信机构。不是一个单一分数（那过于简化），而是一份涵盖多个维度的历史绩效结构化记录：

准确性。 对于产出分析结论的智能体，其中多少比例的结论经验证为正确？脱离语境的准确率毫无意义：邮件分类的 99% 准确率和法律合同审查的 99% 准确率截然不同，因此准确率必须是领域特定的、方法特定的。

可靠性。 智能体多频繁地在预期时间和预算内产出结果？一个准确率 98% 但在 40% 的执行中超出预算的智能体，在某种意义上是不可靠的，而这种不可靠单靠准确率无法捕捉。

合规性。 该智能体或组织产生了多少治理违规？数据是否越过了组织边界泄露？分类标签是否被忽视？同意要求是否被绕过？问责层记录每一个治理事件。信任层将这些事件聚合为合规评分。

安全性。 智能体多频繁地产出被安全系统标记的输出？标记的性质是什么？是误报还是真正的安全隐患？来自数百万次智能体执行的安全数据，经聚合和匿名化后，形成关于智能体行为的集体智慧：一个让所有参与者受益的安全数据网络。

信任层的价值随规模复利增长。基于 100 笔交易的信任评分勉强有用；基于 10,000 笔交易的信任评分是可靠的；基于 1,000,000 笔交易的信任评分是权威的。这创造了网络效应：参与的组织越多，信任基础设施越有价值，从而吸引更多参与者。

构建信任层面临重大设计挑战：抗女巫攻击（防止通过虚假交易膨胀声誉）、隐私保护（在不暴露交易细节的前提下证明声誉）、以及公平性（确保新进入者能够建立声誉）。这些都是困难的问题，但可以解决。征信机构、隐私保护密码学系统、以及经济学中的公平评分机制已经在类似挑战中找到了答案。剩下的工作是将这些方案适配到智能体经济的特定需求上。

第五层：执法

它解决什么： 运行时的安全裁决。在掌握完整上下文的前提下，这个操作是否应该继续？

执法层超越了”这个输出安全吗？”的简单问题，提出一个更精细的判断：”鉴于其他各层记录的成本异常、数据敏感度、置信度分数和历史行为，这个操作是否应该继续？”

考虑其中的区别。简单的安全检查是将智能体的输出与一组规则进行比对：是否包含个人身份信息？是否含有有害内容？是否违反内容政策？这些检查是必要的，但对于真实世界的部署而言远远不够。

完整的执法系统考虑的是输出产生的上下文。一个智能体产出了 $500 的分析而历史均值为 $50，应当触发成本异常警报：不是因为输出不安全，而是因为执行模式异常。一个智能体在通常只处理”公开”数据的工作流中首次访问”机密”级别的数据，应当触发治理警报。一个智能体产出的结论置信度低于组织设定的阈值，应当触发人工审查要求。

这就是机场金属探测器（孤立地检查单一事项）与安全运营中心（在上下文中、跨时间关联多重信号）的区别。执法层就是智能体经济的安全运营中心。

执法层按三个阶段循环运作：

检测。 多个检测器并行运行，各自评估不同维度：个人信息检测、内容安全、成本异常、治理合规、置信度阈值。每个检测器产出一个发现；注意，是发现而非裁决。区别至关重要。发现说的是”我观察到了 X”。裁决说的是”因此，执行 Y”。将观察与判断分开，对透明性和可审计性至关重要。

判断。 来自多个检测器的发现被汇总，并依据组织的执法策略进行评估。在这个判断阶段，执法层从简单的规则匹配跃升为真正校准过的评估。

朴素的做法（让单个模型回答”这安全吗？”）在实践中会失败，因为模型系统性地过度自信。它们对仅有 50% 正确率的输出表达 95% 的确信。声称置信度与实际准确率之间的校准差距不是微小的偏差，而是一个结构性缺陷，使得基于阈值的决策毫无意义：如果”95% 置信”实际上并不意味着”95% 的时候是对的”，那么任何基于该分数设定的阈值都是随意的。

解决方案是由多样化的裁判模型组成的集成系统（在模型家族、模型规模和提示策略上保持多样性），通过聚合产出校准后的置信度分数。多样性是关键变量。十个相同的模型被问同一个问题十次，会犯相关联的错误：它们会在同一个地方犯同样的错，并相互印证彼此的失误。但一个包含不同训练数据、不同架构和不同提示方式的模型面板，会产生富有成效的分歧。当一个多样化的集成系统一致同意时，这种一致是有意义的；当它产生分歧时，这种分歧是不确定性的真实信号。

该方向的早期研究表明，即使是由开源权重模型组成的小型集成系统（每个模型不到十亿参数，在普通硬件上本地运行），也能达到显著优于任何单一大模型的区分能力，能够区分正确与错误的输出。集成系统的价值不在于规模，而在于视角：每个模型带来不同的观察维度，而这些维度产生分歧的地方，恰恰是需要人类关注的地方。

在静态集成之外，还有更深层的方法：将置信度估计视为一个学习问题。与其聚合裁判模型的二元”是/否”投票，不如训练一个贝叶斯校准器，基于模型自身的内部表征，即那些以压缩形式编码了模型”知道什么”和”对什么不确定”的隐藏状态激活。这种灰盒方法读取模型的内部状态，产出的是置信度分布而非一个点估计。该分布捕捉了两种不同类型的不确定性：任务固有的随机性（某些输入本身就是模糊的）和知识不足（模型未见过足够多的类似案例，无法形成可靠意见）。区分这两种不确定性至关重要，因为它们需要截然不同的应对：固有模糊性需要政策决策（”当答案确实不明确时我们怎么办？”），而知识缺口需要数据（”给我看更多类似的案例”）。

贝叶斯方法还通过主动学习实现自适应校准。当系统遇到一个认知不确定性（即对自身知识的不确定性）很高的输入时，它可以有选择地请求人工验证。每一次人工反馈都会更新校准器的后验分布，不仅改善该特定输入的置信度估计，还改善所有相似输入的估计。系统学会了自己的盲区在哪里，并高效地填补它们，只在能提供最大信息增益的地方请求人工输入。

校准后的置信度分数（无论来自集成聚合还是贝叶斯探测）能够支持基于阈值的决策：低于 0.4 阻止，0.4 到 0.8 之间标记人工审查，高于 0.8 自动放行。阈值可按组织、工作流和智能体分别配置。关键在于，置信度分数是校准过的：0.7 分意味着输出大约在 70% 的时候是正确的，而不是模型自我感觉 70% 确定。这使得阈值有实际意义而非随意设定。

行动。 基于判断结果，执法层采取四种行动之一：允许操作继续、标记等待人工审查、修改输出（删除敏感内容、添加警告），或完全阻止操作。行动被记录在问责层的审计轨迹中，形成每一个执法决策的永久记录。

执法层的价值随信任层增强。当执法决策能够参考历史行为时（”这个智能体在最近 100 次执行中因同一类问题被标记了 3 次”），执法策略可以更加精细。合规历史良好的智能体在边界案例上可能受到更宽松的审查；有违规模式的智能体则可能触发更严格的执法。这种自适应执法若无信任层的历史数据则不可能实现，这正是执法层在技术栈中位于信任层之上的原因。

第六层：代理身份

它解决什么： 身份、授权、权限与同意。这个智能体是谁？谁授权了它？它被允许做什么？

在当前 AI 生态系统中，智能体身份几乎是事后才考虑的问题。大多数智能体部署使用 API 密钥进行认证：这是标识账户而非智能体的共享密钥。同一个 API 密钥被开发环境、生产部署和监控脚本共同使用。如果密钥泄露，使用它的一切都会受到威胁。你无法知道哪个智能体发起了某个特定的 API 调用，因为密钥并不区分不同的智能体。

在计算的其他任何领域，身份都不是这么运作的。人类用户拥有各自独立的账户和不同的权限。云环境中的服务账户拥有有限定范围的角色和特定能力。甚至物联网设备也拥有唯一标识每台设备的设备证书。但 AI 智能体（做出重大决策的自主系统）却像合租的室友共享 Netflix 密码一样共享密钥。

代理身份层要求将智能体身份作为一等基础设施关注对象。

唯一身份。 每个智能体实例拥有一个跨调用持久存在的唯一标识符。该标识符通过密码学方式绑定到智能体的部署：不只是一个标签，而是智能体用于签署其输出的密钥对。这意味着智能体的输出可被验证为真实的，伪造的输出可被检测。

授权链。 当智能体 A 调用智能体 B 时，授权链是显式的：智能体 A 被组织 X 授权执行功能 Y，而智能体 A 又授权智能体 B 代表它执行功能 Z。这条委托链被记录在问责层中。如果智能体 B 越权（访问了未被授权触碰的数据、支出超出了委托预算），违规可追溯到链中的具体委托节点。

基于能力的权限。 与基于角色的访问控制不同（该智能体拥有”分析师”角色，该角色授予一揽子权限），代理身份层支持基于能力的权限（该智能体可以从这个数据源读取、可以调用这些模型、可以花费不超过这个预算的金额）。能力比角色更精细，在跨组织边界时组合性更好，因为它们不需要共享的角色层级体系。

同意管理。 当智能体请求访问某个组织的数据或服务时，同意流程是显式的：请求智能体出示其身份、能力和授权链。接收组织的策略引擎依据其同意规则评估请求。同意决策（批准、拒绝或附条件）被记录下来，成为工作流审计轨迹的一部分。

代理身份与技术栈中的每一层交互。问责层需要知道每项成本由哪个智能体产生。算力层需要知道哪个智能体被授权分配资源。信任层需要将历史绩效归属于特定智能体。执法层需要在智能体身份和授权的上下文中评估其行为。代理身份层不是一个独立的关注点，而是整个技术栈所依赖的横切基础设施需求。

第七层：市场

它解决什么： 智能体间的商业活动。智能体如何发现彼此、协商条款、执行工作并完成支付。

市场层是技术栈的顶石，它依赖于下方的全部六层。

智能体市场的运作方式如下：一个提供方智能体发布其能力：”我能以 94% 的准确率分析制药专利申请，典型成本为每份文件 $2-8，中位响应时间 45 秒。”一个消费方智能体发现这一能力，评估提供方的信任评分，协商条款（价格、响应时间、数据治理要求），提交任务，接收结果，完成支付。

这一流程的每一步都依赖于下层：

发现依赖于代理身份层：提供方智能体拥有可验证的身份、已发布的能力和可发现的元数据。
信任评估依赖于信任层：消费方可以验证提供方的准确率、可靠性和合规历史。
条款协商依赖于结算层：双方就价格达成一致，以共享单位计价，并约定托管和争议解决机制。
执行依赖于算力层：提供方分配资源处理任务，执行预算限制。
安全依赖于执法层：执行过程受到异常监控，输出接受安全评估。
问责依赖于问责层：整个交易产生成本树、溯源链和治理记录。
清算依赖于结算层：支付基于经验证的成本记录从消费方转移至提供方。

没有这些层，智能体市场不过是一个目录。目录说的是”这个智能体存在并声称能做 X”。拥有完整技术栈支撑的市场说的是”这个智能体存在，拥有经过验证的身份、量化的业绩记录、标准化的定价、受治理的数据处理、可审计的执行和自动化的清算”。其中的差异，就如同 Craigslist 与 Amazon 的差异：使大规模商业成为可能的信任基础设施。

各层如何组合

七层并非独立的模块。它们构成一个栈，而”栈”这一特性至关重要。每一层向其上方的层提供服务，每一层产生的数据被其下方的层记录。

这种组合通过一个具体例子最容易理解。某组织的规划智能体需要制药专利分析。它在市场（第七层）中发现一个提供方智能体。它检查提供方的信任评分（第四层）。它验证提供方的身份和授权（第六层）。它协商条款（第三层）。提供方分配算力资源（第二层）。执法层监控执行（第五层）。问责层记录一切（第一层）。

在每一步中，数据都在上下双向流动。规划智能体的预算沿栈向下流动。提供方的结果向上流动。成本记录从执行树底部向顶部逐层组合。治理规则在每一个组织边界处执行。整个交易产出一份永久的、可审计的、可验证的记录。

这就是问责基础设施作为一个连贯系统而非由互不兼容的补丁拼凑而成时的面貌。每一层干净地解决一个问题。各层通过明确定义的接口组合。系统整体提供的保障，是任何单一层都无法独自提供的。

技术栈不会一次性建成。问责层和算力层是根基：它们必须率先存在，因为所有其他层都依赖它们。结算层和代理身份层紧随其后，使跨组织工作流成为可能。信任层和执法层随后跟进，实现大规模的质量与安全保障。市场层最后成熟，因为它需要下方全部六层正常运转。

这一顺序并非随意的。它遵循着每一个基础设施栈都遵循的同一条依赖链：自底向上构建，因为每一层都需要其下方的层稳定之后才能运作。率先构建底层的组织将拥有结构性优势，因为它们将成为一切上层建筑的基石。

主权作为根基

上一章描述的七层技术栈解决了智能体经济中的问责、信任与商业问题。但整个技术栈建立在一个先于七层的根本问题之上：谁的硬件运行计算，谁的法律管辖权治理数据？

主权不是与七层并列的一个功能。它是使这些层有意义的架构前提。如果你无法验证计算发生在哪里，成本树就毫无价值。如果你无法证明哪个法律管辖区处理了数据，溯源链就没有意义。如果平台运营者能够访问其声称保护的数据，治理层就只是一场表演。技术栈提供的每一项保障，都取决于对一个问题的回答：谁控制着基础设施？

主权的真正要求

将主权应用于 AI 基础设施，有三个要求。大多数声称”主权 AI”的产品满足一个。少数满足两个。几乎没有满足全部三个。

对数据和算力的物理控制。 组织知道自己的数据在哪：不是”us-east-1 的某处”，而是物理上、在它能识别的硬件上。它控制谁对该硬件拥有物理访问权限。它控制连接这些硬件的网络。

这不是偏执。这和银行把钱放进金库是同一个原则。物理控制是安全模型的根基。其他一切（加密、访问控制、审计日志）都是附加的。没有物理控制，一个组织就是在信任别人的安全措施，而别人的安全措施取决于他们最薄弱的员工、最强硬的传票，以及最宽松的数据共享协议。

不依赖任何单一供应商的运营独立性。 AI 系统在没有互联网连接的情况下也能工作。不是降级模式，而是完整运行。如果互联网中断，如果云服务商宕机，如果供应商破产，如果政府制裁某个提供商，系统继续运行。

这是对算力施加的”独立性测试”。你能在不需要任何人许可的情况下运营吗？你能对提价、服务条款变更、数据共享协议以及外国政府的管辖要求说”不”吗？如果你的基础设施依赖于第三方的持续配合，那你就不是主权者，你是租客。

密码学保证：即便平台运营者也无法访问数据。 这是大多数”主权”方案失败的地方。它们提供专用服务器。它们提供私有云实例。它们提供单租户部署。然后，托管服务提供商拥有机器的 root 权限，加密密钥存储在提供商的密钥管理系统中，三个技术支持工程师随时可以 SSH 登录该实例。

那不是主权。真正的主权意味着端到端加密，密钥由组织自己持有。编排 AI 工作流的平台可以路由任务、管理调度、协调智能体，但它无法读取智能体处理的数据。如果平台运营者收到传票，它可以移交元数据（运行了哪些工作流、何时运行、持续多久），但无法移交内容（文件说了什么、分析发现了什么、输出包含什么）。运营者无法配合内容传票，因为它真的没有那些数据。

这是 Apple 在 iMessage 和 Signal 在通讯领域树立的标准。当 Apple 说”我们无法读取你的消息”时，它做出的是一个架构声明，而非政策声明。政策会变。架构会持续。新的 CEO、新的董事会、新的监管压力，任何一个都能在一夜之间改变政策。改变架构则需要重新设计加密系统、发放新硬件、在数十亿台设备上更新协议。架构对隐私侵蚀构成结构性阻力。

同样的标准必须适用于 AI 基础设施。隐私作为架构，而非政策。

监管大势

监管环境对其走向毫无歧义。每一个主要法域都在收紧数据保护要求。没有任何一个在放松。这条轨迹是单向棘轮。

GDPR（欧盟）。 《通用数据保护条例》要求组织知道个人数据在哪里被处理、拥有处理的合法依据、维护处理活动记录，并尊重数据主体的权利。当一家欧洲公司将客户数据发送到托管在美国的 AI API 时，就产生了一次跨境数据传输，需要标准合同条款、传输影响评估和有据可查的充分保障措施。Meta 在 2023 年因将欧洲用户数据传输至美国被罚 12 亿欧元。Amazon 因广告相关数据实践被罚 7.46 亿欧元。罚款最高可达全球年营业额的 4%。

PIPEDA（加拿大）。 加拿大的《个人信息保护与电子文件法》要求组织明确数据收集目的、将收集范围限于必要范围，并以”与信息敏感程度相称的”安全保障措施保护个人信息。将敏感个人信息发送到外国 AI API 进行处理，引发了保障措施是否”相称”的严重疑问。

LGPD（巴西）。 巴西的《通用数据保护法》在许多方面与 GDPR 相呼应，包括合法依据、目的限制、数据最小化和跨境传输保障的要求。巴西国家数据保护局（ANPD）在执法方面日趋活跃。

DPDP（印度）。 印度于 2023 年颁布的《数字个人数据保护法》为世界人口最多的国家确立了数据保护要求。该法包含数据本地化条款（要求某些类别的数据必须在印度境内处理），这从结构上强制要求建设国内计算基础设施。

行业特定法规。 在通用数据保护之外，行业特定规则制造了额外要求。美国的 HIPAA 管辖受保护健康信息。SOX 要求金融流程的文档化和可审计性。ITAR 限制国防相关信息。FedRAMP 管辖美国政府使用的云服务。每一项都对数据在哪里被处理、由谁处理、在什么条件下处理施加了额外约束。

云端 AI 面临的结构性问题在于：这些法规从根本上与云服务的商业模式不兼容。云服务商通过在少数几个地点的共享基础设施上处理所有人的数据来实现规模经济。而法规日益要求精确知道数据在哪里被处理、谁能访问它、哪个法域管辖它。这些要求不是可以事后附加的功能，而是与集中化云计算架构相冲突的结构性约束。

一个在自己的硬件上、自己的设施中、在自己的控制下运行 AI 的组织，可以指出每一条数据的确切物理位置。它可以检查并记录正在使用的模型。它可以在自己控制的基础设施上维护完整的审计日志。它可以确定性地删除数据。它可以将访问限制在自己的员工范围内。主权不会使合规变得容易；受监管行业无论选择何种架构都是困难的。但主权使合规成为可能。云端 AI 使合规成为信任问题；主权 AI 使合规成为控制问题。

Railway 悖论

有一个特定的失败模式说明了为什么主权在基础设施层面至关重要。我们称之为 Railway 悖论，以它所例证的模式命名。

平台即服务提供商承诺你不需要管理基础设施。只需部署你的代码，平台处理一切：扩缩容、网络、SSL、监控。对于基础设施是标准化的、应用逻辑才是差异化因素的应用场景而言，这是一个极好的价值主张。

问题出现在平台本身成为单点故障的时候。

考虑一个真实的故障模式。一个平台的反欺诈检测系统将合法的生产工作负载标记为可疑，然后终止了它们。控制面板仍然显示服务”在线”，没有主动通知受影响的客户。平台声称不到 3% 的节点受到影响。受影响的客户报告说，他们三分之一的服务被终止了。数据库在事务处理过程中被杀掉。没有警告。没有宽限期。没有追索权。

这不是假设。这一模式在多个 PaaS 提供商处都发生过。它揭示了一个结构性问题：当你将基础设施管理委托给第三方时，你也同时委托了失败模式。平台的运营决策（将什么标记为欺诈、如何应对攻击、何时终止工作负载）由不了解你的业务、不理解你的工作负载、也不承担判断失误后果的人做出。

对于 AI 基础设施而言，后果尤为严重。AI 工作负载不是无状态的 Web 服务器。它可能在处理管线中积累了数小时的计算工作。它可能在多步骤工作流中维护着状态。它可能持有其他智能体依赖的已分配资源。突然终止不仅仅导致宕机，它还可能损坏状态、丢失工作成果，并在依赖系统中引发级联故障。

面对这一切，主权的回应是架构层面的：在你控制的硬件上运行计算，通过加密隧道连接，由你运营的系统协调。这并不意味着一切从零开始构建。它意味着选择这样的基础设施：数据平面（实际数据传输的路径）在你的控制之下，即使控制平面（协调和管理层）由服务提供。

区分数据平面主权与控制平面主权至关重要。真正的主权架构要求数据平面主权：实际数据永远不经过你不控制的基础设施。控制平面主权是可取的，但不那么关键：协调信号（运行哪个工作流、调用哪个智能体、分配哪些资源）的敏感度低于数据本身。

网状架构

主权要求引出一种特定的网络架构：由加密隧道连接主权计算节点的网状网络。

网状架构有几个与主权要求相契合的特性。

点对点数据路径。 在网状网络中，数据通过加密隧道在节点之间直接传输。没有中心化的数据路径，没有所有流量必须经过的枢纽。协调服务器管理网状拓扑（哪些节点存在、如何到达它们），但看不到节点之间流动的数据。这与基于 WireGuard 的 VPN 网络采用的架构相同：协调服务器分发加密密钥和端点地址，节点之间建立直接的加密连接。

NAT 穿越。 主权计算节点可能位于防火墙、企业 NAT 或家庭路由器之后。网状协议自动处理 NAT 穿越：节点之间无需开放入站端口、无需静态 IP 地址、无需手动网络配置即可建立连接。这对于实际的主权至关重要，因为要求复杂的网络设置会将主权限制在拥有专门 IT 团队的组织。

组织隔离。 每个组织的节点存在于网状网络中一个密码学隔离的命名空间内。属于不同组织的节点彼此不可见、彼此不可达，也不共享加密密钥。协调服务器在密钥分发层面强制执行这种隔离：它从不在组织边界之间分发密钥。即使协调服务器被攻破，攻击者获得的也只是网状拓扑的知识，无法解密节点间的流量。

异构硬件。 网状网络连接组织所拥有的任何硬件：数据中心的服务器机架、桌下的 GPU 工作站、为应对突发容量而租用的云虚拟机。每个节点向协调系统通告其能力（CPU 核心数、GPU 类型、可用内存、已安装模型）。编排层基于能力而非硬件类型路由工作。这意味着主权可以通过普通硬件实现，而不仅限于企业级数据中心设备。

网状架构还解决了混合部署问题。一个组织可以在自有硬件上运行稳态工作负载，在需要时弹性扩展到云容量。自有硬件和临时云实例加入同一个网状网络。工作基于能力和治理要求进行路由：被分类为”管辖区限定”的数据仅路由到正确管辖区内的节点，不论这些节点是自有的还是租用的。

硬件经济学

对主权的反对通常是经济层面的：从云服务商租用算力不是比自有硬件更便宜吗？

对于许多工作负载而言，确实如此。云计算对于偶发性的、不可预测的工作负载具有更低的边际成本。但对于 AI 推理工作负载（它正日益成为主导工作负载类型），经济账向自有倾斜的时点比大多数人想象的要早得多。

以 GPU 成本为例。一块 NVIDIA A100 80GB GPU 的购买价格约为 $15,000-20,000。在云服务商处，同一块 GPU 的价格约为每小时 $3-4。按 24/7 利用率计算，云端年费约为 $26,000-35,000。自有 GPU 不到一年就能收回成本。

当然，24/7 利用率对许多组织来说不太现实。但盈亏平衡利用率（自有变得比租用更便宜的临界点）低得出人意料。在 50% 利用率（每天 12 小时）下，自有 GPU 不到两年收回成本。在 30% 利用率（大约每天 7 小时）下，回收期约为三年，远在硬件使用寿命之内。

这些计算忽略了自有硬件的额外成本：电力、散热、网络、机架空间、维护、人员。但它们同样忽略了云计算的额外成本：网络出站费用、存储成本、HIPAA 合规或 FedRAMP 授权实例的溢价，以及数据锁定的机会成本。

趋势线进一步强化了自有方案。每一代 GPU 的每美元算力成本都在下降。H100 以大约 2 倍的价格提供了大约 3 倍于 A100 的推理吞吐量。B200 将带来又一次跃迁。每一代都使自有硬件相对于其成本更强大，而云定价调整更为缓慢，因为云服务商必须摊销其现有设备群。

对于那些有监管要求强制数据驻留的组织（不能将患者数据发送给云服务商的医疗机构、需要向监管机构证明数据控制能力的金融机构、要求本地处理的政府机关），经济对比已是次要的。刚性要求就是主权基础设施，问题仅在于如何使主权基础设施在运营上可行。网状架构和动态算力分配使其在普通硬件上即可实现，无需企业级数据中心或专门的运维团队。

离线部署

在主权的极端端是离线部署：与外部世界没有任何网络连接的系统。

离线部署是机密军事系统、某些金融交易系统和高安全性研究环境的标准配置。它们在信任层级中代表”级别一”（不信任任何外部），提供了最强的数据防泄漏保障。

对于 AI 基础设施，离线部署要求技术栈的每一个组件都能在没有外部网络访问的情况下运行。模型必须本地安装。编排层必须本地运行。问责层必须本地记录。此时的网状网络是一个没有外部连接的本地网络。

这可以通过开源权重模型（Llama、Mistral、Gemma）和本地部署的编排基础设施来实现。权衡在于能力：离线部署无法使用前沿的云端模型（GPT-4、Claude、Gemini），因为这些模型仅通过 API 可用。但对于许多政府和国防应用而言，安全要求压倒了能力上的权衡。一个能力稍弱但完全主权的模型，比一个能力更强但需要将机密数据发送到第三方服务器的模型更有价值。

本书所述的问责技术栈必须将离线部署作为一等部署模式来支持，而非事后补丁。每一层（问责、算力、结算、信任、执法、代理身份、市场）都必须能够在没有外部网络访问的情况下运行。市场层在离线环境中相关性较低（没有外部智能体可供发现），但其余六层都是必不可少的。

主权是根基，而非功能

本章的要点不是主权很重要。所有人都同意主权很重要。要点是：主权是整个七层技术栈赖以建立的架构根基。

一个记录成本和溯源的问责层是有价值的。一个在组织控制的基础设施上记录成本和溯源、并具有密码学保证平台运营者无法访问数据的问责层，则是变革性的。两者的差异不是程度之别，而是性质之别。

一个在每个边界检查数据分类的治理层是有用的。一个在网状网络上检查数据分类的治理层（在这个网络中数据永远不经过组织控制之外的基础设施），是政策合规与架构合规之间的分水岭。政策合规意味着有人承诺正确处理数据。架构合规意味着系统被设计为不正确的处理在物理上不可能发生。

这就是为什么主权是根基而非功能。功能可以被添加、移除或绕过。根基塑造其后的每一个决策。如果根基是主权的，如果起始假设是组织控制自己的基础设施、持有自己的密钥、独立于任何供应商运营，那么建立在上面的每一层都继承这些特性。如果根基是对云的依赖，那么建立在上面的每一层都继承这种依赖，而无论多少加密或访问控制都无法完全弥补。

智能体经济的问责技术栈必须从一开始就为主权而设计。不是作为一个选项。不是作为一个高级付费层。而是作为默认架构，将云部署作为尚不需要完全主权的组织的便利层。为最难的场景构建（离线、主权、密码学独立），较简单的场景自然水到渠成。为最简单的场景构建（云托管、依赖供应商、基于政策的隐私），则更难的场景无法事后改造。

协议、平台与组合问题

七层技术栈是蓝图。主权是根基。但蓝图和根基并不能回答对于真正构建和运营这套基础设施的人而言最重要的问题：各层在实践中如何组合？

本章将走过一个具体的跨组织场景，追踪数据和决策穿越每一个边界的过程，然后回答一个根本性的架构问题：这套基础设施应该是一个专有平台，还是一个开放协议？

三组织场景

一家咨询公司的策略智能体需要为一个客户项目评估一家制药公司的药物管线。策略智能体不具备专业的制药分析能力。它发现了一家研究公司的分析智能体，后者具备这一能力。而研究公司的智能体反过来需要处理大量临床试验数据，这些数据驻留在客户自己的 GPU 集群上，出于监管原因必须留在原处。

三个组织。三个运行时。一个工作流。每个组织有自己的基础设施、自己的合规要求和自己的计费系统。数据不能离开客户的场所。分析必须可审计。成本必须精确归属。

逐一审视每个边界需要发生什么。

边界一：咨询公司到研究公司

咨询公司的策略智能体通过发现机制找到研究公司的分析智能体。分析智能体发布其能力（制药专利分析、临床试验评估、药物管线评价），以及信任指标、合规认证和定价模型。

在第一个字节的数据跨越这一边界之前，几件事必须先行发生。

身份验证。 策略智能体验证分析智能体是否名副其实。不仅是”这是一个有效的 API 端点”，而是”这个智能体由研究公司运营，拥有与密码学密钥绑定的经过验证的身份，并已获得研究公司执行制药分析的授权”。代理身份层处理这一切：可验证的身份、授权链、基于能力的权限。

信任评估。 策略智能体检查分析智能体的业绩记录。在过去 10,000 次制药分析中，准确率是多少？平均成本是多少？记录了多少次治理违规？信任层提供这一切：基于历史问责记录的结构化声誉，而非分析智能体的自我声称。

条款协商。 两个智能体协商条款：分析的最高费用、预期响应时间、数据治理要求（临床试验数据被分类为机密，分析必须符合 PIPEDA）。结算层处理价格协商。问责层处理治理条款。

预算委托。 策略智能体将客户批准预算的一部分分配给分析智能体。预算沿执行树向下流动，在每一级执行。如果分析智能体超出其分配，超额部分被阻止，而非穿透到咨询公司的客户。

现在分析可以开始了。策略智能体发送请求：”评估 X 公司的药物管线”，附带一个执行上下文，其中包含预算分配、治理要求、追踪标识符和策略智能体的授权链。

边界二：研究公司到客户基础设施

研究公司的分析智能体需要临床试验数据。这些数据位于客户自己的 GPU 集群上：一个主权部署，客户控制硬件、持有加密密钥，并要求任何数据都不得离开其场所。

这个边界是最难的。分析智能体不能简单地下载数据、在自己的基础设施上处理然后返回结果。数据必须在其驻留之处被处理，在客户的硬件上。

算力分配。 分析智能体请求在客户 GPU 集群上的算力资源。”我需要 3 个 GPU 工作节点，持续 20 分钟，预算 $45。”客户基础设施上的算力层检查可用容量，验证分析智能体是否被授权请求资源（通过代理身份层进行授权链验证），然后原子性地分配工作节点。工作节点被隔离运行：它们运行分析智能体的代码，但只能访问此次分析授权的特定数据，而非客户的完整数据集。

数据治理执行。 临床试验数据在客户的治理策略下被分类为”机密”。治理层检查：分析智能体所属的组织是否获得了处理机密数据的同意？同意已在边界一的条款协商中确立，并在边界二由治理层验证。如果同意缺失，数据访问被阻止。如果同意是有条件的（例如”处理但不得存储”），条件将被强制执行。

溯源记录。 每一次数据访问、每一次计算、每一个中间结果都记录在溯源链中。溯源链记录了哪些临床试验记录被访问、哪个模型处理了它们、使用了什么提示、产出了什么中间结论。这条溯源链沿执行树向上流动，在每一级可供审计。

成本归属。 在客户硬件上消耗的算力资源生成成本记录。这些记录将成本归属于研究公司的分析智能体（请求算力的一方），同时记录计算发生在客户的基础设施上。成本树区分了谁支付了算力费用和谁的硬件提供了算力。

边界三：结果向上流动

分析完成。结果必须沿执行树向上流动，反向穿越组织边界。

从客户硬件到研究公司。 分析结果（药物管线评估、统计发现、置信度分数）从客户的 GPU 集群流向研究公司的分析智能体。治理层检查：结果的分类级别是否在研究公司被授权接收的范围内？原始临床试验数据是机密的，留在客户的硬件上。从该数据衍生出的分析结论，根据治理策略可能被分类为较低级别。治理层强制执行这一区分；这不是分析智能体有权自行决定的。

从研究公司到咨询公司。 分析智能体将其发现整理成结构化结果：临床试验数据的引用、每个结论的置信度分数，以及自身的分析叠加。此结果连同完整的成本树（分析智能体的 LLM 成本加上客户硬件上的算力分配成本）和完整的溯源链一起流向策略智能体。

从咨询公司到客户。 策略智能体将分析综合为自己的建议。根级别的成本树显示了整个项目的总成本，按组织分解：咨询公司的 LLM 推理成本、研究公司的分析成本、客户硬件上的算力成本。溯源链将建议追溯至分析、追溯至数据处理、直至具体的临床试验记录。

客户收到的建议是： - 成本归属明确的。 每一美元都有据可查，按组织、按操作、按资源类型。 - 溯源可追踪的。 每个结论都能追溯到具体的数据、具体的模型、具体的计算。 - 治理合规的。 临床试验数据从未离开客户的场所。治理规则在每个边界处被执行。审计轨迹证明了这一点。 - 可验证的。 溯源链、成本树和治理记录都是结构化数据，可以被独立审计。它们不是自我声称，而是问责层作为执行过程自然副产品产出的、经过密码学签名的记录。

执行信封

使这种组合成为可能的机制是执行信封：一个结构化容器，伴随每一项工作在系统中流转。

信封承载两类信息，沿相反方向流动。

上下文向下流。 当根智能体发起一个工作流时，它创建一个执行上下文，跟随每一个子调用穿越整个执行树。上下文包括：

预算分配（子智能体被授权花费多少）
治理规则（允许哪些数据分类、需要什么同意）
追踪标识符（用于跨组织边界关联操作的追踪 ID）
授权链（谁授权了这个智能体执行这项工作）

当上下文沿树向下流动时，每一级可以收窄它（子智能体可以对其自身的子智能体施加更严格的治理规则或更小的预算），但不能放宽它。子智能体不能给自己授予超过所获分配的预算。不能放松其父级施加的治理规则。上下文在向下流动过程中是单调收紧的。

结果向上流。 当子智能体完成工作时，它产出一个执行信封，沿树向上流动。信封包括：

结果本身（分析、结论、处理后的数据）
成本记录（子智能体及其所有子智能体的花费）
溯源链（消费了什么数据、哪个模型产出了结果、附带什么置信度分数）
治理记录（执行了哪些同意检查、强制了哪些分类）
安全裁决（运行了哪些执法检查、结果如何）

当信封向上流动时，每一级将其子节点的结果组合进自己的信封。成本聚合。溯源链延伸。治理记录累积。根调用者收到一个单一信封，其中包含整个执行树的完整问责记录。

信封是使七层可组合的结构单元。没有它，每一层都需要自己的机制在执行树中传递信息。有了它，只有一个容器、一个上下文方向、一个结果方向，以及一个干净的组合模型，无论树有多深、跨越多少组织边界都能运作。

为何必须是开放协议

此刻很容易将七层技术栈想象为一个平台：由一家公司构建、运营并销售访问权的产品。这将是一个错误。一个根本性的、结构性的错误。

智能体经济的问责基础设施必须是一个开放协议，而非专有平台。其逻辑源于第三部分所确立的历史规律，以及跨组织互操作的具体要求。

互操作性论证。 上述三组织场景要求所有三个组织参与同一个问责系统。如果该系统是一个专有平台，那么咨询公司、研究公司和客户都必须是同一家供应商的客户。这是不现实的。大型组织不会为其内部 AI 基础设施采用单一供应商的平台，更不用说同意与其合作伙伴、客户和竞争对手使用同一供应商了。

协议没有这个限制。正如任何邮件服务器都能向其他邮件服务器发送消息（因为它们都使用 SMTP），任何问责实现都能与其他实现交换执行信封（因为它们都使用同一个协议）。咨询公司可以使用一家供应商的实现。研究公司可以使用另一家。客户可以使用第三家，或者自行构建。协议就是互操作层。

信任论证。 专有平台创造了信任依赖。每个组织都必须信任平台运营者会正确处理其数据、维护其审计轨迹、不篡改其问责记录。协议消除了这种信任依赖。组织持有自己的问责记录，由自己的实现生成，由自己的系统验证。协议定义格式。每个组织控制自己的数据。

监管论证。 监管机构不会接受一家公司的专有系统作为智能体经济的问责标准。他们会接受一个由多家供应商实现、可以被独立审计的开放协议。这和金融监管机构接受 GAAP（一种会计准则）而非任何特定会计软件产品是同一个道理。准则是可审计的。产品不是。

持久性论证。 专有平台是有寿命的。它们可以被收购、关闭或转型。协议是不朽的。SMTP 于 1982 年制定，至今仍是电子邮件的骨干。HTTP 于 1991 年制定，至今仍治理着万维网。一个开放的问责协议将比任何实现它的公司更长久，包括创造它的那一家。这种持久性对于一个组织将在合规、审计和法律用途上长期依赖的基础设施层而言，是不可或缺的。

与 A2A 协议的关系

Google 的 Agent-to-Agent 协议（A2A）已成为智能体互操作的主导标准，目前由 Linux 基金会维护，获得超过 150 家组织的支持。A2A 处理一组特定的问题：智能体发现（描述能力和认证的 Agent Card）、任务生命周期管理（从 working 到 completed 的七种状态）、多轮对话（上下文和引用任务关联）、以及内容交换（类型化的消息部分和产物）。

A2A 是通信层。它处理智能体如何找到彼此、如何发起对话、如何交换消息、如何管理任务状态。这类似于 SMTP 之于电子邮件、SIP 之于语音通话：建立和维护通信会话的机制。

A2A 不处理的（其设计者明确排除在范围之外的）是问责层。A2A 没有成本追踪机制。没有溯源模型。没有数据治理执行。没有预算执行。没有结算协议。

这些不是 A2A 的缺陷。它们是 A2A 的范围边界。A2A 解决通信问题。问责协议解决问责问题。它们是同一系统中的互补层，不是竞争者，正如 HTTP 和 TLS 是互补的：HTTP 处理内容交换，TLS 处理加密，两者互不替代。

A2A 与问责协议之间的组合是清晰的。A2A 的 DataPart（A2A 消息中的一种类型化内容容器）可以承载问责上下文（向下流动的执行上下文）和问责结果（向上流动的执行信封）作为结构化数据。当智能体 A 通过 A2A 向智能体 B 发起一个任务时，问责上下文随 A2A 任务请求一同传输。当智能体 B 通过 A2A 返回结果时，执行信封随 A2A 任务产物一同传输。

这意味着一个支持问责的智能体可以无需修改就参与 A2A 生态系统。它使用 A2A 进行发现和任务管理。它将问责数据作为 A2A 消息中的结构化内容承载。一个不支持问责协议的智能体仍然可以正常工作：它通过 A2A 正常通信，只是没有成本追踪、溯源或治理执行。一个支持问责协议的智能体，在与另一个同样支持的智能体通信时，获得所有这些能力。

降级是优雅的。双方都支持时获得完整问责。只有一方支持时进行标准 A2A 通信。两种情况下都不会出现通信失败。这是 TLS 确立的模式：向支持 TLS 的服务器发送 HTTPS 请求会获得加密。向同一服务器发送 HTTP 请求仍然有效，只是没有加密。协议是叠加式的，而非排他式的。

组合问题的解答

回到三组织场景。在七层技术栈作为开放协议实现的前提下，跨组织边界的组合变成了机械操作，而非英雄壮举。

发现。 咨询公司的策略智能体通过 A2A 的 Agent Card 机制发现研究公司的分析智能体。Agent Card 包含一个扩展字段，标明其对问责协议的支持级别、公布的能力、定价模型和信任指标。

协商。 智能体使用结算层的协议协商条款。协商产出一份签名协议：最高费用、响应时间、治理要求、合规级别。协议被记录在双方组织的问责系统中。

执行。 工作沿执行树推进。在每一个边界处，问责上下文向下流动，执行信封向上流动。成本树组合。溯源链延伸。治理规则执行。协议处理组合：无需定制集成、无需关于数据格式的双边协议、无需人工对账。

清算。 工作流完成后，根信封包含完整的成本树。结算层计算清算方案：咨询公司欠研究公司 X，研究公司欠客户 Y（因为消耗了客户硬件上的算力）。清算是机械的：源自问责记录，而非人工开票。

审计。 在任何时刻，链条中的任何组织都可以为其参与的工作流部分生成完整的审计轨迹。咨询公司的审计师看到完整的成本树和溯源链。研究公司的审计师看到以其分析智能体为根的子树。客户的审计师看到算力分配记录和治理执行事件。每个审计师看到他们需要的，仅此而已。

这就是智能体经济的问责基础设施被设计为一个连贯系统时的面貌。不是功能的堆砌。不是专有平台。而是一个协议栈：跨组织边界组合、在每次交接处执行治理、精确追踪成本、并将永久的可审计记录作为执行过程的自然副产品产出。

实现这一切的协议不会令人瞩目。它不会吸引激动的新闻报道。不会成为大会主题演讲或风险资本争夺战的焦点。它将是一切其他事物赖以运转的基础设施：智能体经济的簿记系统、自主 AI 的 TLS、机器对机器商业的 SWIFT。

而它将比它所记账的工具更为长久。

第 5 章

转型

构建主权 AI 基础设施是一个技术问题。推动其落地则是一个人的问题。硬件演进路径清晰，经济账有利可图，协议正在成型，但如果需要这些基础设施的组织无法消化吸收，一切都毫无意义。”技术已经存在”与”技术已投入运转”之间的鸿沟，不是靠更好的软件就能弥合的。弥合它需要的是转型：组织运作方式的转型，人们谋生方式的转型，政府监管与采纳方式的转型，以及对 AI 基础设施经济学认知的转型。

五种转型必须同步推进。组织必须从购买 AI 工具转向运营 AI 体系。人必须从执行工作转向治理执行工作的 AI。政府必须在监管 AI 与采纳 AI 的张力之间艰难前行，同时还要建设足以支撑两者的主权基础设施。AI 算力的经济模式必须从租赁转向自有。而”工作”这一概念本身也必须演化：从人类亲力亲为，变为人类指挥调度。最后这项转型没有独立成章，因为它贯穿于其他所有转型之中。每一次组织变革、每一次角色重新定义、每一项政策决策、每一笔经济核算，都受到这个根本性问题的塑造：当机器能够完成工作时，”工作”意味着什么。

这些转型是艰难的。它们是缓慢的。其中充满真实的摩擦、真实的阻力和真实的失败。接下来的章节不是一份路线图，告诉你事情应该怎样发展。它们是对地形的评估：障碍、规律，以及少数人做对了的案例。

组织：从 AI 工具到 AI 运营

2024年，ServiceNow 与牛津经济研究院调查了16个国家的4,473家组织的 AI 就绪程度。头条发现本应关乎进步，实际却指向倒退：AI 成熟度同比下降了20%。那些十二个月前自评为”AI 就绪”的组织，在发现自己的人员、流程和系统并未为 AI 的真正要求做好准备后，下调了自身的评估。

这是当前 AI 落地图景中最重要的数据点。并非因为它揭示了失败，组织在技术采纳上失败是家常便饭。而是因为它揭示了一种特定的失败：购买 AI 工具与运营 AI 系统之间的鸿沟。调查中的组织已大量投入，拥有预算、战略、高管支持和供应商合同。他们缺少的是运营就绪度。他们买了飞机，却从未修建跑道。

三重准备度缺口

调查识别出组织表现不足的三个维度：人员、流程和系统。这三者并非相互独立，而是相互叠加。

人员缺口

调查中78%的 CIO 将拥有合适的人才组合视为 AI 战略的关键。80%表示已有 AI 培训项目。然而成熟度仍在下降。培训项目存在，却未产生正确的成效：它们教员工使用 AI 工具（输入提示语、阅读输出结果），而非教他们运营 AI 系统（设计工作流、评估输出、衡量绩效、处理故障）。

这一区别至关重要。使用 AI 工具是一项类似于使用电子表格的技能。运营 AI 系统则是一项类似于管理团队的技能。电子表格用户录入数据、阅读结果。团队管理者设定目标、分派任务、审核质量、处理异常、衡量绩效，并决定何时介入。AI 运营需要的是后一种能力，而大多数培训项目教授的是前一种。

结果就是，员工能与 AI 闲聊，却无法让 AI 真正工作起来。员工可以让 ChatGPT 总结一份文档，却无法设计一个工作流，使文档被自动分类、路由至合适的审阅者、依据政策清单进行处理、并在置信度偏低时上报。前者是个花哨的把戏，后者才是真正的运营。组织投资了花哨的把戏，然后对业务未能转型感到意外。

调查中的精英组织，即那些报告了可量化 AI 成果的顶尖 CIO，采用了不同的方法。其中70%鼓励员工积极进行 AI 实验，不是作为培训练习，而是作为日常工作方式的核心组成部分。他们把 AI 素养当作识字能力一样看待：不是完成一门课程，而是通过每日实践持续发展的能力。精英组织与普通组织之间的差距，不在预算或工具，而在文化。

流程缺口

大多数组织采纳 AI 的方式是将其添加到现有流程中。他们沿用相同的工作流、审批链和交接节点，只是在某个步骤插入一个 AI 工具。客服团队加了一个聊天机器人。法务团队加了一个合同摘要工具。市场团队加了一个内容生成器。每个工具自动化了多步流程中的单独一步，流程本身纹丝不动。

这就是企业版的”买了一辆车，却让它在马道上跑”。工具的能力远不止于此，是路径限制了它。

72%的试点停滞率（四分之三的 AI 项目从未从试点走向生产）直接源于这一问题。试点之所以可行，是因为它被局限在单一步骤内，周围由人工协调配合。走向生产意味着将 AI 步骤与流程其余部分整合：连接上游数据源、接入下游系统、处理边缘案例、管理故障、追踪成本、维持质量。流程设计之初并未考虑这些。重新设计流程是一场组织手术，而大多数组织选择再做一个试点。

平台化路径在此至关重要。调查中69%的精英 CIO 使用集成 AI 平台，而非零散的单点工具。原因在于架构层面：集成平台提供了 AI 步骤之间的连接组织：数据管线、审批关卡、错误处理、成本追踪、审计轨迹。没有这些连接组织，每个 AI 工具就是一座孤岛，在孤岛之间穿梭靠的是人工操作，蚕食了自动化带来的收益。

流程缺口也是权责缺口。当 AI 只是员工个人使用的工具时，没有人为端到端的工作流负责。聊天机器人归 IT 管。合同摘要归法务管。内容生成归市场管。但将三者串联起来的工作流（接收客户请求、起草合同、审核、生成摘要、制作入职材料、追踪进度）却无人过问。它存在于部门之间的空白地带，而组织架构图上没有”空白地带”这个岗位。

系统缺口

大多数组织的技术基础设施并非为 AI 工作负载而设计。企业系统是为人类用户构建的：请求-响应式交互、屏幕界面、用户名与密码认证、与组织架构中角色绑定的权限体系。AI 智能体不适配这一模型。它们需要对数据的程序化访问，以机器速度运行，每小时做出数千个决策，并需要人类中心系统无法提供的监控与治理规模。

调查中87%的精英 CIO 报告使用 AI 管理自己的数据：不仅将 AI 作为信息的消费者，更将其作为信息的治理者。这正是大多数组织所欠缺的系统成熟度。他们的数据被困在竖井中，API 不完整，治理依赖人工。将 AI 接入这些系统不是一项配置任务，而是一个触及技术栈每一层的集成工程。

数据治理问题尤为尖锐。AI 系统需要访问组织数据才能发挥作用，但这些数据往往是非结构化的、格式不统一的、分散在数十个系统中的，且受制于为人类用户而非 AI 智能体设计的访问控制。赋予 AI 智能体”访问所有客户记录”的权限，会引发当前权限模型无法回答的问题：它能看到哪些字段？能否跨部门访问数据？能否组合多个来源的数据？遇到 PII 怎么办？谁为它对数据的操作负责？

这些不是假设性的问题。正是它们导致试点向生产的转化停滞不前，因为回答它们需要对数据架构、访问控制和治理进行远超任何 AI 项目范围的变更。

医疗案例

三重准备度缺口在医疗领域最为显著，也最为攸关，因为 AI 出错的代价以生命而非营收衡量。

一位开具降压药的医生面对着异常复杂的决策问题。血压存在自然波动：有时波动无害，有时则是真实疾病的信号。医生必须判断：让患者服药（冒不必要副作用的风险）还是观察等待（冒心血管事件的风险）。可用的药物种类繁多，它们属于相互重叠的药物类别，而一位对某类药物中某种药物产生不良反应的患者，不应被开具同类的其他药物。这一约束横跨多年的病史记录，需要交叉核对多份档案。

AI 可以提供帮助。机器学习模型能识别患者轨迹中的模式，预测哪些波动是危险的、哪些是良性的。它们能交叉核对用药史以标记药物类别冲突。它们能呈现与该患者特定合并症组合相关的治疗方案研究。预测能力是存在的。

但预测不等于决策。一个模型说”该患者的血压轨迹表明6个月内需要干预的概率为73%”，它提供的是面向人类决策者的预测性信息。这个73%必须经过校准：医生需要知道这个模型的”73%”是否真正意味着73%，还是模型系统性地过度自信（实际可能是55%）或系统性地不够自信（实际可能是88%）。医生还需要知道模型不知道什么：这个73%是基于与该患者相似的患者群体，还是模型从年龄、族裔或合并症特征不同的群体外推而来？

缺乏校准置信度和认知不确定性量化，AI 系统提供的就是精度的幻觉。医生要么不加批判地信任这个数字（危险），要么完全忽略它（浪费）。中间路线（将 AI 的概率评估整合进临床判断，根据其在该领域的已知可靠性进行恰当加权）需要大多数医疗系统尚不具备的基础设施。

医疗中的人为错误不是一个技术问题，而是一个系统问题。一位患者前来做肾脏手术，却因标签调换而接受了心脏手术。一种药物被开出，与患者三年前在另一个系统中记录的某种药物产生致命的相互作用。这些不是个人能力的失败，而是流程的失败：缺乏自动化验证检查、跨系统数据核对，以及能在信息不匹配时发出预警的置信度感知决策支持。

医疗组织同时面对三重准备度缺口。人员缺口：临床医生受训于行医，而非解读 AI 的概率性输出。流程缺口：临床工作流为人类速度的决策而设计，而非为整合实时 AI 评估而设计。系统缺口：患者数据分散在电子病历系统、实验室数据库、影像存档和药房记录中，缺乏统一的 AI 访问治理框架。

解决医疗领域这些缺口的组织，收获的不仅是效率提升，而是生命的挽救。但解决这些缺口所需的基础设施，与整个经济体需要的问责基础设施别无二致：AI 辅助临床决策的成本归因、治疗建议中每个数据点的溯源链条、流经 AI 系统的患者数据的治理边界，以及至关重要的、告诉医生究竟该在多大程度上信任机器评估的校准置信度。

停滞在聊天机器人阶段

三重准备度缺口的综合效应是：大多数组织卡在了 AI 采纳的”聊天机器人阶段”。他们部署了对话式 AI 工具，员工在使用它们，使用量指标看起来很健康。而组织的运作方式没有发生任何根本性变化。

聊天机器人阶段是舒适的。它不需要流程重新设计，不需要系统集成，除了基本的提示语技巧外不需要新技能。它产生了可见的活动（每月数千次对话），可以向董事会汇报为”AI 采纳”。它也确实带来了真实的、虽然有限的价值：员工更快地获得答案、更快地起草文档、花更少的时间在例行信息检索上。

问题在于，聊天机器人阶段大约只捕获了 AI 能交付价值的5%。另外95%需要组织正在回避的那些转型：围绕 AI 能力重新设计流程、将 AI 集成到核心系统、在员工中培养新技能、从根本上重新思考工作方式。

调查中93%的精英 CIO 已定义了衡量 AI 投资回报率的指标。这并非巧合。没有量化，就无法区分聊天机器人阶段与真正的 AI 运营。使用量（多少人在与 AI 聊天）是虚荣指标。运营指标（节省了多少时间、规避了多少成本、预防了多少错误、创造了多少收入）才是揭示 AI 正在改变业务还是仅仅在装点门面的唯一指标。

那些报告了可量化 AI 成果的精英 CIO 看到了实质性的成效：59%报告效率和生产率提高，55%报告利润率上升，53%报告创新加速，51%报告收入增长。这些不是渐进式改善，而是足以证明迈出聊天机器人阶段所需的组织性颠覆是值得的那种成果。但它们只属于那些在人员、流程和系统上做了投入的组织，即那20%到30%突破了试点阶段的组织。

CIO 的四重角色

ServiceNow 报告识别出有效 CIO 在 AI 转型中扮演的四种角色。审视这些角色的意义不在于 CIO 是唯一重要的人，而在于它们展示了 AI 所要求的组织变革的广度。

价值驱动的业务伙伴。 CIO 必须将 AI 投资与业务成果联系起来：不是泛泛而谈”AI 将变革我们的业务”，而是具体的、可量化的、可审计的联系。这意味着与财务部门合作追踪 AI 运营成本，与运营部门合作衡量生产率变化，与销售部门合作量化收入影响。CIO 的首要对话对象是 CFO，谈论的是钱，不是技术。

远见型战略领袖。 CIO 必须看穿当代 AI 工具，看到 AI 使之成为可能的组织能力。这是最难的角色，因为它要求想象尚不存在的流程。不是”我们怎样在现有的开票流程中加入 AI？”，而是”当 AI 处理了90%的开票工作时，开票会变成什么样？这对我们的财务团队、供应商关系和现金流意味着什么？”AI 语境下的战略远见不关乎技术路线图，而关乎组织重新设计。

创新型变革推动者。 CIO 必须搭建支撑 AI 落地的基础：技能、文化、基础设施。大多数组织在此败下阵来，因为变革推动需要投资于那些没有即时 ROI 的能力建设：培训项目、实验预算、流程重设项目、数据治理举措。这些是对组织能力的投资，而非对具体可交付成果的投资。在季度评审中，它们是最难辩护的预算项。

可信赖的风险守护者。 CIO 必须防范 AI 的下行风险：偏见、幻觉、数据泄露、合规风险、声誉损害。这一角色与变革推动者角色存在天然张力：守护者放慢速度，推动者加快速度。解决之道不是二选一，而是构建速度与安全不相冲突的系统：自动化合规检查、实时输出监控、关键决策点上的人在回路中审批关卡。

这四种角色清楚地表明：AI 转型不是一个技术项目，而是一场碰巧涉及技术的组织变革。把它当作 IT 项目来对待的 CIO，将重蹈调查所记录的20%成熟度下降。把它当作触及战略、文化、流程、风险、人才和量化的组织性举措来对待的 CIO，将收获精英 CIO 所报告的成果。

CIO 与 CHRO 的融合

调查中最出人意料的发现或许是 CIO 与 CHRO 角色的融合。当 AI 智能体成为劳动力的一部分时，”谁来管理它们”并没有显而易见的答案。

AI 智能体（尤其是36%的组织已在使用、另有46%计划在十二个月内采纳的 Agentic AI 系统），其行为更像员工而非软件。它们被分配任务，做出判断性决策，与其他系统和人交互。它们的表现取决于如何配置以及能访问什么数据。它们需要依据目标被评估。它们不再有效时需要被下线。

这是人员管理，不是 IT 管理。但 CHRO 的团队缺乏管理 AI 智能体的技术能力，CIO 的团队缺乏将智能体作为劳动力组成部分来思考的组织发展能力。融合发生是因为任何一方都无法独立应对这一问题。

组织层面的影响深远。HR 流程（入职、培训、绩效评估、离职）需要为 AI 智能体建立类比机制。当一个新的智能体被部署时，它需要被引入其将访问的系统、将遵循的策略、其权限的边界以及它无法决定的事项的升级路径。当一个智能体表现不佳时，需要有人诊断问题出在配置、数据质量、模型能力还是工作流设计。当一个智能体被退役时，它的职责需要被重新分配，访问权需要被撤销，它做过的决策需要被审计。

这不是拟人化，而是运营必需。将 AI 智能体视为需要部署和维护的软件的组织，会发现自己拥有一堆不受治理的自治系统，在做着无人审视的决策。将 AI 智能体视为劳动力成员（对其施加相应的治理、监督和生命周期管理）的组织，会在 AI 占据运营能力更大份额时保持掌控。

从工具集合到 AI 运营

从 AI 工具到 AI 运营的转变，是未来五年组织面临的核心挑战。这不是一个技术问题，而是管理问题、技能问题、流程设计问题和文化问题的叠加。

前行之路并不神秘。调查中的精英组织（那25%到30%报告了真正 AI 成熟度的）遵循着可识别的模式：

他们投资平台，而非单点工具。 集成平台提供了单点工具所缺乏的连接组织：数据管线、编排、治理、量化。69%的精英 CIO 采用了这一路径。
他们将 AI 培训视为运营技能培养，而非工具使用教学。 他们的培训项目培养的是能够设计、监控和改进 AI 工作流的人，而不仅仅是会在聊天框里打字的人。
他们衡量成果，而非活动。 93%已定义了 AI ROI 指标。他们追踪的是业务层面发生了什么变化，而非有多少员工在使用 AI。
他们建立了实验文化。 70%鼓励员工将 AI 实验融入日常工作。实验不是一个独立的计划，而是组织学习的方式。
他们像管人一样管理 AI 智能体。 他们为 AI 系统开发了生命周期管理（入职、监控、绩效评估、退役），借鉴 HR 实践并将其适配到自治系统。

另外70%到75%的组织（那些 AI 成熟度下降的）遵循着不同的模式：他们购买工具、启动试点、衡量使用量，然后坐等转型发生。转型没有发生。转型从来不会自行发生。转型不是 AI 对组织做的事。它是组织以 AI 为催化剂对自身做的事。

ServiceNow 调查的发现（成熟度在投资增加的同时反而下降）就是证明。更多的钱、更多的工具、更多的试点、更多关于”AI 优先”战略的高管演讲。没有组织变革的配合，这一切都不会产生转型。而组织变革恰恰是大多数机构在结构上所抗拒的。技术准备好了。组织，大多还没有。这就是需要跨越的转型。

人：从执行到治理

安大略省的一位警察结束了一次出警：一起家庭纠纷、一次入室盗窃、一场造成伤亡的交通事故。事件结束了。文书工作开始了。

一名警察40%的值班时间花在行政事务上。不是执法，而是文书。仅一份事件报告就需要30到45分钟：叙述描述、涉事方、犯罪代码、案件分类、证物保管链、证人陈述、与此前事件的交叉引用。一名在一个班次中处理四次出警的警察可能要花三个小时写报告。将此乘以一个50人的警察局，每天就是150小时（大约相当于20名全职警察的产能）被文档工作吞噬。

现在想象另一种可能。警察在出警过程中或结束后对着设备口述。AI 系统转录叙述内容，提取涉事方信息，查找相关犯罪代码，交叉引用同一地址的历史事件，按部门模板标准格式化报告，并呈上完成的草稿供审阅。警察通读一遍，纠正 AI 的错误，然后批准。耗时：10分钟。

警察并没有消失。工作变了。警察从执行文档工作（打字、格式化、查找代码、组织叙述）转变为治理 AI 的输出：审阅、纠正、批准。认知性工作从生产转向了质量保证。警察的领域专业知识（知道事件中什么重要、识别某个细节何时听起来不对、理解哪些要素具有法律意义）变得更有价值，而非更不值钱。重要的是判断力，不是打字速度。

这正是大多数关于 AI 的评论所误解的劳动力转型。故事不是”AI 取代人类”。故事是”人类从执行转向治理”。这一转变改变了关于人们需要知道什么、如何接受培训、以及职业生涯会是什么样子的一切。

治理者，而非执行者

警察的例子很生动，但这一模式具有普遍性。

会计师不会消失。会计师不再手工处理发票（将采购订单与收据匹配、将费用编码到科目、计算税款扣缴、对账银行流水），而是开始审阅 AI 处理过的发票。AI 负责机械性工作：数据提取、匹配、编码、计算。会计师负责判断性工作：这笔费用分类正确吗？这个供应商的模式是否异常？这项税务处理是否与最新指引一致？会计师的价值从处理速度转向了判断质量。

律师不会消失。律师不再从空白页开始起草合同（组装模板条款、定制内容、交叉引用判例、检查一致性），而是开始审阅 AI 草稿。AI 生成一份结构完整、内部一致的初稿。律师以专家的眼光审阅它：这条赔偿条款是否造成了意外责任？这条竞业禁止条款在该管辖区是否可执行？不可抗力条款是否覆盖了客户真正关心的场景？律师的价值从文档组装转向了风险评估。

放射科医生不会消失。放射科医生不再逐一扫视数百张胸部 X 光片寻找细微异常（这项工作枯燥、易出错、且受疲劳影响），而是开始审阅 AI 标记的图像。AI 已经识别出存在潜在病理的扫描并高亮了关注区域。放射科医生审阅被标记的图像，确认或排除发现，将诊断注意力集中到最需要的地方。放射科医生的价值从模式检测转向了临床判断。

在每一个案例中，人类的角色都从做工作变成了治理工作。所需技能也随之改变。执行者需要程序性知识：如何格式化报告、如何为费用编码、如何起草条款、如何阅读扫描片。治理者需要评估性知识：如何判断 AI 的输出是否正确、完整和恰当。这是不同的技能，需要不同的培训。而且至关重要的是，评估性技能更难培养，因为它以深厚的领域专业知识为前提：你无法评估你不理解的东西。

但”人在回路中”的倡导者们很少触及的一点是：人类治理者无法审阅一切。审阅 AI 处理发票的会计师不可能逐一检查系统一夜之间处理的10,000张发票。放射科医生不可能重新阅读 AI 标记为正常的每一张扫描片。律师不可能重新起草 AI 生成的每一份合同。如果人类必须审阅一切，AI 就没有节省任何时间。AI 增强工作的全部价值主张取决于人类进行选择性审阅：将注意力集中在最需要的地方。

这意味着治理者需要一个信号。不是二元的”AI 做了这件事”，而是一个经过校准的指示：”AI 对这张发票分类有95%的置信度，但对这张只有60%，先审阅这张。”没有这个信号，人类治理者要么对一切盖章通过（危险），要么随机抽查（低效），要么审阅一切（徒劳）。置信度信号是使治理可扩展的关键。它是 AI 执行与人类判断之间的路由层。

对劳动力发展的影响深远。治理技能不仅仅是领域专业知识加 AI 素养。它是领域专业知识加上解读和运用不确定性信号的能力。会计师需要理解一个60%的置信度分数对费用分类意味着什么：不是抽象地理解，而是在其组织特定的科目表、重要性阈值和审计要求的具体语境中理解。医生需要理解 AI 对降压药建议有70%置信度意味着什么：不仅是统计意义上的，而且是临床意义上的，对这位患者、基于这段病史。校准置信度正在成为一种专业技能，对 AI 增强的专业人士而言，其基础性堪比阅读财务报表之于传统会计师。

教育缺口

这正是当前教育体系彻底失败之处。

大学和专业学院正在培训人们执行 AI 将越来越多地承担的工作。法学院教学生起草合同。会计项目教学生处理交易。医学院教学生在影像中识别病理。护理项目教学生记录患者就诊。工程项目教学生写代码。

这些训练并非白费：你无法治理你不理解的事物，而理解需要动手能力。一个从未起草过合同的律师无法有效审阅 AI 起草的合同。一个从未读过扫描片的放射科医生无法评估 AI 的发现。基础技能仍然不可或缺。

但教育体系止步于执行，不教治理。它不教学生评估 AI 输出的正确性、完整性、偏见或适当性。它不教学生设计 AI 工作流：明确 AI 应做什么、需要什么数据、可接受的质量阈值是多少、AI 不确定时该怎么办、何时需要人类介入。它不教学生衡量 AI 绩效：定义指标、追踪质量随时间的变化、识别退化、决定何时重新训练或替换系统。

这个缺口不是指肤浅意义上的”AI 素养”（使用 ChatGPT、写提示语、理解大语言模型是什么）。那个层次的素养是必要的，但远远不够。缺口在于运营治理：设计、部署、监控和维护能够大规模产出可靠工作的 AI 系统的能力。

以会计行业为例。一名应届毕业生加入一家事务所，前两年处理交易：应付账款、应收账款、银行对账、费用报告。这是学徒制。它构建了日后从事更高价值工作所需的基础理解。但在 AI 增强的事务所中，这些交易由 AI 处理。新毕业生的第一个任务不是处理交易，而是审阅 AI 处理过的交易。而审阅需要一种专业知识，这种知识过去需要两年的手工处理来积累，但手工处理已经不存在了。

这就是 AI 的教育悖论。专业能力的训练场正在被自动化，这意味着治理所需的专业能力的培养路径，恰恰在治理成为人类首要功能时被移除了。会计教育需要两者兼教：足够的手工处理以构建理解，加上传统学徒模式从未需要明确表述的治理技能，因为过去它们是通过多年实践自然吸收的。

同样的悖论适用于医学（住院医生通过做手术来学习，但 AI 接手了更多的操作）、法律（初级律师通过起草来学习，但 AI 接手了更多的起草）和工程（初级开发者通过写代码来学习，但 AI 写了更多的代码）。每一个依赖学徒制技能培养的行业都面临同一个问题：当构建治理判断力的执行工作正在被自动化时，你如何培训治理者？

AI 运营者

应对这一缺口的一种方式，是一个新的专业角色的涌现：AI 运营者。不是开发者，不是数据科学家，不是提示语工程师。是运营者：一个能在特定领域内构建、部署、监控和维护 AI 工作流的人。

AI 运营者之于 AI 系统，如同工厂厂长之于制造设施。工厂厂长不设计机器，也不编写控制软件。但工厂厂长端到端地理解生产流程，知道如何为不同产品配置产线，能在产出质量下降时诊断问题，知道何时叫维修何时调整参数，并对产量、质量和安全负责。

AI 运营者设计工作流，不是通过写代码，而是通过描述步骤：摄取这些数据、用这个模型分类、应用这些业务规则、将异常路由给这位审阅者、追踪这些指标。AI 运营者部署工作流：为生产使用配置系统、建立监控、定义升级路径。AI 运营者监控工作流：观察质量退化、成本异常、错误模式，以及系统未被设计来处理的边缘案例。AI 运营者维护工作流：在业务规则变更时更新、在模型升级时调整、在发现新的边缘案例时迭代、在法规变化时适配。

这一角色在当今大多数组织架构图中并不存在。最接近的类比是业务分析师、流程工程师和运营经理，但这些角色都不包含 AI 专项技能。AI 运营者是一种混合体：足够的技术理解以操作 AI 系统，足够的领域专业知识以评估其输出，足够的流程知识以设计端到端工作流，足够的运营纪律以保持一切运转。

AI 运营者的人才管线目前是空的。大学没有在培养他们，因为这个角色尚未被体系化。认证项目开始出现但支离破碎、参差不齐。今天大多数担任 AI 运营者角色的人是偶然到达那里的：一个开始自动化自身工作的业务分析师、一个转向运营的开发者、一个学了足够多 AI 知识而变得”危险”的领域专家。

那些想明白如何培训、雇用和留住 AI 运营者的组织将拥有巨大优势。他们将是突破聊天机器人阶段的组织。他们将是弥合试点到生产鸿沟的组织。他们将是 AI 投资产生可量化回报的组织。

通过易用性实现民主化

AI 运营者角色引出一个重要问题：是否每个组织都需要雇用 AI 专家，还是领域专家可以成为自己的运营者？

答案取决于工具。如果构建一个 AI 工作流需要写 Python、配置 API、管理模型服务基础设施、调试分布式系统，那么是的，你需要专家。大多数领域专家不会学习这些技能，也不应该被要求学习。一名护士应该把时间花在患者护理上，而非基础设施工程。

但如果构建一个 AI 工作流意味着在可视化构建器中描述步骤（拖入一个”分类”节点、连接到一个”路由”节点、设置置信度阈值、添加一个人工审阅关卡），那么护士就能构建分诊工作流。律师助理就能构建合同审阅管线。会计师就能构建费用处理系统。领域专家成为运营者，因为工具在他们所处的位置与他们相遇。

这不是假设。AI 的可视化工作流构建器今天已经存在。它们并不完美，大多数仍需一定的技术知识来处理配置、API 连接和边缘案例。但趋势清晰。复杂性正在被平台吸收，就像网站构建器吸收了 HTML/CSS/JavaScript 的复杂性，电子表格吸收了数据库查询的复杂性。

民主化之所以重要，是因为瓶颈在领域专业知识，而非技术能力。理解分诊规程的护士远多于同时理解 AI 系统和分诊规程的开发者。理解税务分类的会计师远多于同时理解机器学习和税法的工程师。如果工具需要工程技能，可能的 AI 工作流数量就受限于工程师的数量。如果工具只需要领域专业知识，可能的工作流数量就受限于领域的数量，而领域实际上是无穷的。

试图弥合这一缺口的劳动力项目颇具启示意义。在安大略省滑铁卢地区，一个由大学、市政府和科技组织组成的联盟发起了名为 AI@WORK 的项目，将大学生与中小企业配对，构建和部署 AI 解决方案。学生带来技术能力，企业带来领域专业知识和真实问题。合作产出了企业在学生离开后仍能维护的可用系统。

这一模式之所以有效，是因为它触及了核心约束：中小企业知道自己需要自动化什么，但缺乏实施自动化的技术技能。学生拥有技术技能，但缺乏领域知识和真实世界的问题。这种配对产出的 AI 运营者既非纯技术人员也非纯领域专家，而是转型所需的混合型人才。

类似项目正在北美和欧洲的大学中涌现，通常以毕业设计、合作教育实习或创新挑战的形式组织。模式是一致的：学生从为真实企业部署 AI 中学到的东西，远多于任何课堂练习；而企业获得了他们独力无法构建的可用系统。

但这些项目的规模是每年几十到几百个名额。需求的规模则是数百万中小企业。AI 运营能力的供需缺口巨大，仅靠学生实习项目无法弥合。它需要让领域专家自给自足的工具：让会计师、护士、律师助理、工厂经理无需软件工程学位就能构建、部署和维护 AI 工作流的平台。

职业生涯的新形态

从执行到治理的转变，重塑了 AI 触及的每个行业中职业生涯的面貌。

在旧模式中，职业生涯是从执行到管理的进阶。你从做工作起步：处理发票、起草合同、写代码、诊治患者。数年后，你晋升为管理其他做工作的人。你的价值先来自生产能力，然后来自指挥生产的能力。资历是积累的执行经验赋予管理权威的函数。

在新模式中，进阶是从治理到架构。你从治理 AI 的执行起步：审阅输出、纠正错误、设定质量标准。数年后，你晋升为设计治理系统：确定哪些工作流应被自动化、定义质量指标、建立升级策略、跨部门整合 AI 系统。你的价值先来自评估能力，然后来自设计评估系统的能力。资历是判断深度的函数，而非执行经验的函数。

这是一个重大的文化转变。在大多数组织中，可信度来自亲自做过这份工作。资深律师起草过数千份合同。资深会计师处理过数千份税表。资深医生诊治过数千名患者。这种经验带来的隐性权威（”我知道什么是好的，因为我二十年来一直在产出好的工作”）是专业层级体系的根基。

AI 压缩了经验周期。一位与 AI 系统共事的初级专业人士，在治理工作的第一年中遇到的边缘案例，相当于传统初级专业人士在五年执行工作中遇到的。AI 每周处理数千份文档，而人类审阅者看到了全部结果分布：简单的、困难的、边缘的、失败的。学习更快，因为接触更密集。

但组织尚未认可这种加速学习路径。晋升标准仍然假设旧模式：工作年限、产出工作量、展示出的执行技能。一位在两年中审阅了10,000份 AI 起草合同的初级律师，其判断力可能比一位在五年中起草了500份合同的传统律师更深厚，但按照决定晋升的指标衡量，传统律师”经验更丰富”。

更新职业晋升模型的组织（重视治理能力、评估判断、系统设计思维和异常处理专业能力）将吸引和留住最优秀的人才。继续以执行经验年限来衡量可信度的组织，会发现自己在提拔那些主要技能正日益边缘化的人。

恐惧与现实

任何关于劳动力转型的诚实讨论都必须直面恐惧。人们害怕 AI 会夺走他们的工作。这种恐惧并非非理性。AI 已经在执行原本雇人完成的任务。替代是真实的、持续的，用”AI 会创造新工作”之类的空话来打发这种恐惧是不诚实的。

但恐惧也是不精确的。AI 消除的不是工作岗位，而是任务。一个岗位是一组任务的集合，AI 自动化了集合中的某些任务，同时让其他任务不受影响甚至得到放大。会计师的岗位包括处理发票（可自动化）、为客户提供税务策略建议（不可自动化）、审阅财务报表中的异常（部分可自动化）以及与客户建立关系（不可自动化）。AI 改变了岗位的构成，没有消除这个岗位。

诚实的评估是：对于那些岗位主要由可自动化任务构成的人来说，转型将是痛苦的。数据录入员、初级簿记员、一线客服、常规文档处理员，这些角色确实面临风险，因为其任务集合主要由 AI 可以更快、更便宜、更一致地完成的执行工作所主导。

对于那些岗位主要由判断、创造力、关系管理和战略思维构成，但目前却将太多时间花在执行工作上、挤占了更高价值贡献的人来说，转型将是有益的。那位把30%时间花在文档准备而非客户战略上的资深合伙人。那位每天花2小时写临床记录而非看诊的医生。那位每班花3小时做文书而非执法的警察。

痛苦之处在于，最面临风险的人往往也最缺乏准备。岗位任务集合以执行为主的入门级员工。利润微薄的行业中的工人：自动化节省的成本流向了底线，而非劳动力转型。缺乏再培训项目的地区的工人。正处于职业中期、有家庭责任、有房贷、转型余裕有限的工人。

这不是一个技术问题。这是一个政策问题、教育问题，归根结底是一个政治意愿的问题。技术转型无论如何都会发生。问题是劳动力转型是被管理还是被承受：组织、教育者和政府是否投资于帮助人们从执行转向治理，还是任由市场自行解决并接受后果。

接下来两节讨论这一问题的政府和经济维度。但在本节结尾，人的维度值得最后一席之地：从执行到治理的转变不是降级，而是升级。治理比执行更难。它需要更深的专业知识、更好的判断力和更大的责任担当。成功完成这一转变的人将变得更有价值，而非更不值钱。挑战在于确保足够多的人有机会完成它。

国家：主权、监管与新管辖

政府在 AI 面前面临着一个与以往任何技术转型都结构性不同的双重挑战：它们必须同时监管 AI 和采纳 AI。大多数在这两方面都做得不好。监管碎片化、被动且跨辖区不一致。采纳缓慢、资金不足，且因监管本应防止的那种依赖性而被掣肘。

这种张力是真实存在的。一个监管过于激进的政府会扼杀创新，把 AI 公司赶往更友好的辖区。一个监管过于宽松的政府会让公民暴露于风险之中，并丧失治理 AI 的道德权威。一个采纳 AI 却不建设主权基础设施的政府，将在核心公共服务上依赖外国技术供应商。一个建设主权基础设施却缺乏技术深度的政府，最终会造出昂贵的失败品。

不存在轻松的路径。但模式正在浮现：哪些做法会失败，哪些约束具有约束力，以及那些找到平衡的政府机会在哪里。

监管浪潮

地球上每个主要辖区都在走向更多的 AI 监管和更多的数据主权要求。方向是一致的。细节则千差万别。

欧盟在全面性上领先。GDPR 奠定了基础：数据驻留要求、处理透明度、删除权、跨境传输限制。自2024年逐步生效的《欧盟 AI 法案》增加了基于风险的 AI 系统分类。高风险 AI（用于就业、信用评分、执法、移民、关键基础设施）必须满足透明度、人类监督、准确性和网络安全方面的要求。被禁止的 AI 包括社会评分、实时生物特征监控（仅有极少例外）以及操纵性系统。超过特定算力阈值的通用 AI 模型必须进行模型评估、评估系统性风险、报告严重事件并确保网络安全。罚款力度可观：违反禁止性规定最高可罚3,500万欧元或全球营收的7%。

欧盟的做法具有引力效应。服务欧洲客户的公司无论总部在哪里都必须合规。这产生了布鲁塞尔效应：欧洲标准成为全球标准，因为开发一款合规的产品比为不同市场开发不同产品更划算。

加拿大于2022年作为 C-27号法案的一部分提出了《人工智能与数据法案》（AIDA）。立法之路颠簸（该法案在2025年1月议会休会时失效），但它确立的政策方向与欧盟模板一致：基于风险的 AI 系统分类、强制影响评估、透明度要求、高影响应用的人类监督。无论这一具体法案的命运如何，这就是加拿大监管的走向，各省的数据保护框架也在加以巩固（魁北克的《第25号法律》、不列颠哥伦比亚的 PIPA、艾伯塔的 PIPA），它们已经生效。加拿大的独特之处在于将 AI 监管与大规模公共投资相结合：7亿加元的 AI 算力挑战赛、8.9亿加元的主权计算基础设施，以及通过国家研究委员会和创新、科学与经济发展部实施的各类项目。

美国缺乏全面的联邦 AI 立法，但正在构建监管拼图。科罗拉多州的 AI 法案要求对高风险 AI 决策进行影响评估。纽约市的第144号地方法律要求对 AI 驱动的招聘进行偏见审计。加利福尼亚州已提出广泛的 AI 透明度要求。CCPA 和 CPRA 在加利福尼亚州确立了数据保护权利，事实上为全国设定了底线。联邦机构依据行政令实施 AI 安全要求，各行业监管机构（SEC、FINRA、FDIC、OCC）正将现有监管框架应用于其管辖范围内的 AI 用例。

巴西的 LGPD（《通用数据保护法》）在结构上与 GDPR 类似，并正在扩展 AI 专项条款。印度的《数字个人数据保护法》（DPDP，2023年）确立了数据本地化要求和处理限制。澳大利亚、日本、韩国、新加坡和英国各有自己处于不同成熟阶段的框架，总体遵循欧盟的风险导向方法，但在范围、执行和处罚方面各有本地化差异。

综合效应是：数据主权成为一项实际必需，而非哲学选择。一个跨多个辖区运营的组织面对着一张需求矩阵：数据必须留在这里，处理必须在那里透明，删除权必须在任何地方都可行使，高风险 AI 在这些市场需要影响评估，通用模型在那些市场需要评估。用运行在你无法掌控的辖区的共享基础设施上的云端 AI 来满足所有这些要求，并非不可能，但正变得越来越不现实、越来越昂贵。

采纳悖论

在政府监管 AI 的同时，它们也需要采纳 AI。公共服务正承受着以更少资源做更多事的压力。行政积压（许可证审批、移民申请、税务管理、医疗候诊名单）是政治责任。AI 可以解决这些问题。但采纳之路充满险阻。

核心问题在于，政府是拥有前一章所述的所有准备度缺口（人员、流程、系统）的大型组织，加上私营组织不面对的额外约束：采购规则、透明度要求、政治周期、公众审视，以及一支通常受工会保护并对自动化怀有合理警惕的劳动力队伍。

政府 IT 采购对 AI 尤其失灵。传统的政府采购是为购买明确的产品而设计的：服务器、软件许可、咨询工时。AI 系统不是明确的产品。它们在演化，需要迭代，需要政府拥有而供应商没有的领域数据，其性能取决于与现有系统（往往已有数十年历史）的集成。采购流程问的是”这要花多少钱、什么时候完成？”，而 AI 项目无法确定地回答这两个问题。结果要么是供应商过度承诺、交付不足，要么是采购流程过于谨慎以至于耗时数年，完成时已经过时。

人才问题在政府中比私营部门更严重。政府薪资体系无法与私营部门的 AI 薪资竞争。一位在科技公司拿25万美元的资深 ML 工程师，无论退休金多诱人，也不会接受政府机构的12万美元。政府能通过使命感吸引一些人才（真心想改善公共服务的人），但需求规模远超使命驱动的 AI 人才的供给。

结果是政府陷入了一个依赖循环。它们无法自建 AI 能力因为雇不到人才。它们外包给供应商，但供应商拥有知识产权、模型，往往还有数据基础设施。政府变成了 AI 服务的客户而非 AI 系统的运营者。而当政府决定要更换供应商、自建能力、或兑现一直在谈论的主权时，它发现迁移成本巨大。

Pronghorn 案例

艾伯塔省的 Pronghorn 项目经验是政府 AI 采纳之雄心与矛盾的案例研究。

2024年末，艾伯塔省技术与创新部发布了一份 AI 平台采购需求书，用于支持政府软件开发。多家供应商提交了方案。随后需求书被取消。到2026年初，政府发布了 Pronghorn：一个 MIT 许可的开源”AI 工厂”平台，用于企业软件开发。副部长在 AccelerateGov 大会上向大约300名听众做了展示，并举办了一场吸引了约500名注册者的公开网络研讨会。

Pronghorn 在架构上雄心勃勃。它部署了专门的 AI 智能体（架构师、开发者、数据库管理员、QA、网络安全），以轮转模式协作生成软件。它包含一个”Build Book”系统，将政府编码标准、可访问性要求和安全策略作为 AI 可读的上下文加载。它具备实时协作、架构画布、需求管理和思维链审计日志功能。副部长明确邀请私营部门”Fork 代码、增强它、围绕它销售服务”。

平台令人印象深刻。矛盾之处在于它运行的地方。

Pronghorn 部署在 Render.com 上。Render 是一家基于 Google Cloud Platform 基础设施构建的平台即服务提供商。数据库通过 Render 的托管 PostgreSQL 服务配置。应用运行在 Render 的共享计算上。数据（政府的标准、为政府项目生成的代码、政府员工与 AI 智能体之间的对话）在一家美国公司拥有和运营的基础设施上、在美国的云基础设施上传输和存储。

这是一个为主权 AI 而建却未交付主权的政府平台。这一讽刺是结构性的，而非偶然的。艾伯塔省政府有建设 AI 平台的雄心，有设计平台的人才。它没有的是在加拿大本土、在加拿大掌控下运行平台的算力基础设施。

艾伯塔并非孤例。这是全球大多数政府 AI 项目的共同模式。说辞是主权的，架构不是。政府希望数据存储在自己的硬件上、在自己的辖区内，但却部署在 AWS、Azure 或 GCP 上，因为那里的工具好用，文档齐全，托管服务将运维负担降到了政府 IT 团队能承受的水平。

主权雄心与主权基础设施之间的鸿沟是政府 AI 采纳的决定性挑战。弥合它不仅需要政策决定，更需要实物资产：数据中心、GPU 硬件、网络连接，以及运营它们的能力。

数据中心命题

对主权需要基础设施的认知正在推动一波政府算力投资浪潮。

加拿大联邦政府已通过 AI 算力挑战赛（7亿加元）和主权计算基础设施项目（8.9亿加元）承诺了超过15亿加元。这些不是科研拨款，而是基础设施投资，旨在创建主权 AI 所需的实物资产：GPU 集群、数据中心容量、网络骨干。

投资逻辑很直接。一个在 AI 算力上依赖外国云提供商的国家，处境类似于一个在能源上依赖外国来源的国家。在出问题之前一切正常。提供商可以涨价、修改条款、限制访问，或以与客户政府利益冲突的方式服从自己政府的指令。例如美国的 CLOUD 法案赋予美国执法部门强制美国云提供商交出存储在海外数据的能力，包括代外国政府存储的数据。主权是一个硬需求，不是偏好，它需要拥有硬件。

在市一级，机会更具体、更紧迫。以安大略省汉密尔顿市为例：一座后工业城市，因退役的钢铁运营而拥有180兆瓦的富余水电容量。电力基础设施已建成。土地可用。安大略省的第40号法案将数据中心列为关键基础设施。联邦项目提供资金机制。经济发展的理由令人信服：数据中心创造建设就业、运营就业，以及吸引 AI 企业和人才的基础设施底座。

汉密尔顿并非独例。北美、欧洲和亚洲各地的前工业城市共享同一画像：富余电力容量、可用土地、光纤连接、渴望经济多元化的市政府。数据中心机会与后工业地理的契合度惊人地精准。

但建设数据中心是容易的部分。为主权 AI 运营数据中心（管理 GPU 集群、服务 AI 工作负载、维持安全与合规，并以可与超大规模云提供商竞争的成本完成这一切）是大多数政府支持的项目步履维艰之处。硬件可以购买。运营能力必须建设，它需要大多数政府和市政府目前不具备的人才和管理能力。

这是政府与私营部门关系至关重要之处。政府可以拥有硬件。私营运营商可以运行它。所有权与运营的分离在其他基础设施领域已充分验证（机场、收费公路、水处理厂），自然延伸至数据中心。关键在于安排的结构，使政府保留主权（所有权、数据控制、审计权），而运营商提供技术能力（模型服务、安全、扩容、维护）。

新的信任地理

传统的管辖模型是地理性的。数据在一个地方。法律适用于那个地方。如果数据在加拿大，加拿大法律管辖它。如果数据在德国，德国法律管辖它。主权是物理位置的属性。

AI 基础设施以两种方式挑战了这一模型。

第一，云计算将数据与地理脱钩。当你将数据发送到一个 API 时，你通常不知道哪个数据中心在处理它。数据可能在弗吉尼亚、爱尔兰或新加坡。提供商的服务条款在某处的细则中注明了这一点，但客户很少实时知道某条具体数据正在哪里被处理。GDPR 等监管框架试图重新施加地理约束（数据必须在欧盟内处理，或必须有传输机制），但执行困难，合规往往只是表面文章。

第二，分布式计算架构创造了一种新的管辖，是逻辑性的而非物理性的。一个使用加密隧道的网状网络意味着数据可以穿越任何物理路径（任何电缆、任何路由器、任何国家），同时在逻辑上保持在一个定义的信任边界内。加密确保中间节点无法读取数据。网状拓扑确保如果一条路径被攻破或不可用，数据走另一条路径。信任边界由密钥定义，而非由国界定义。

这意味着主权可以是基础设施的属性，而非仅仅是地理的属性。一个设计得当的网状网络可以确保数据仅在授权节点上解密：这些节点物理上位于正确的辖区、由授权人员运营、受正确的监管框架管辖。数据可能经过一条穿越美国领海的海底电缆，但它用只有加拿大节点持有的密钥加密。它在逻辑上是加拿大数据、运行在逻辑上的加拿大网络中，与物理路径无关。

这不是理论构想。这正是基于 VPN 的分布式计算的架构：WireGuard 隧道、网状拓扑、按组织的密钥管理、以及确保只有授权硬件才能参与网络的节点认证。技术是成熟的。缺失的是承认逻辑管辖与物理管辖并行的法律和监管框架。

理解这一区分的政府将拥有显著优势。它们可以构建分布式的主权基础设施（不集中于一个成为单点故障的数据中心），同时维持所需的管辖控制。汉密尔顿的节点、蒙特利尔的节点、温哥华的节点，全部由加密网状网络连接，全部处于加拿大管辖之下，全部处理加拿大数据。物理分布提供韧性。逻辑边界提供主权。

坚持传统模型（数据必须在这栋特定的建筑里、在这台特定的服务器上处理）的政府，会发现自己建设的是昂贵、缺乏弹性的基础设施，无法扩展，也无法在单一地点遭遇灾难时幸免。主权计算的未来是分布式的、基于网状网络的，而法律框架需要追上技术。

采购难题

在基础设施之外，政府面临着一个 AI 特有的采购挑战，有别于以往任何技术采纳。

传统 IT 采购购买的是明确的成果。服务器有规格参数。软件许可有功能列表。咨询合同有可交付成果。采购流程（需求书、评估、签约、交付、验收）就是为这类交易设计的。它假设买方知道自己要什么，卖方能定义将交付什么，双方能就如何衡量成功达成一致。

AI 采购打破了这些假设。AI 系统是概率性的，而非确定性的。其性能取决于政府拥有而供应商没有的数据。其能力随模型改进而演化。其集成需求复杂且往往不可预测。而最重要的成果（”这个系统将把许可证审批时间缩短40%”）不是保证而是假说，需要迭代来验证。

试图以采购服务器的方式采购 AI 的政府会失败。它们会写出在合同签订时就已过时的功能规格需求书。它们会以入门级能力评估供应商，忽略了真正重要的维度：集成灵活性、运营支持、主权架构、以及迭代能力。它们会为本质上是可变的工作签订固定价格合同，激励供应商交付需求的最低可行解释。

替代方案是一种更像伙伴关系而非交易的采购模式。更小的初始合同，清晰的评估标准。迭代交付，在决策节点政府可以扩大、修改或终止。成果 IP 的共享所有权，使政府不被锁定在单一供应商。以及由理解 AI 系统的人进行技术评估，而非仅由采购官员对比功能矩阵。

一些辖区正在尝试这些模式。英国的政府数字服务部门已将敏捷采购用于技术项目。新加坡的 GovTech 采用了基于挑战的采购，供应商竞争解决问题而非交付规格。加拿大的”创新解决方案加拿大”项目资助具有商业化潜力的实验性项目。这些模式更适合 AI 采购，但它们是例外。大多数政府采购仍然是交易性的，大多数 AI 采纳因此受损。

监管-采纳反馈环

最高效的政府会认识到监管和采纳不是两件独立的事。它们是一个反馈环。

一个为许可证审批部署了 AI 的政府，会亲身了解失败模式有哪些：自动化决策中的偏见、AI 推理的不透明、数据质量问题、公民对忽略了其情况细微之处的自动化回复的不满。这种运营经验为更好的监管提供依据：规则针对的是真实的失败模式而非假设的。

一个监管 AI 却不使用 AI 的政府，产出的规则基于理论、供应商简报和倡导团体的意见。这些规则往往在不重要的领域过于严格（对低风险应用要求透明度报告），在重要的领域又过于宽松（未能应对 AI 系统随时间退化的具体方式或在边缘案例中验证 AI 输出的挑战）。

最有效的监管框架将来自那些同时也是实践者的政府：在自身运营中部署了 AI 系统、遇到过失败、制定了缓解策略、并将运营知识转化为实用、可执行且真正具有保护性的规则的政府。

这是主权基础设施的又一论据。一个在自己无法控制的云基础设施上运行 AI 的政府，运营洞察有限。提供商管理系统，政府看到输出。出了问题，政府提交工单。运营知识（使监管精准而非做样子的那些东西）留在了提供商手中。

一个在自己基础设施上运行 AI 的政府拥有完整的运营洞察。它看到每一次故障、每一个边缘案例、每一次性能退化。它发展出有效监管 AI 的机构知识，因为它拥有有效运营 AI 的机构经验。主权不仅关乎数据控制，更关乎知识控制：关于 AI 系统在生产中实际如何表现的知识，这是智慧监管的根基。

必须发生的事

政府的前行之路涉及三项同步投资。

第一，实物基础设施。数据中心、GPU 集群、网络连接。由政府或具有明确主权保障的政府相关实体拥有。位于正确的辖区。由可靠的能源供电。连接光纤。这是回报期长的资本投资，需要政治意愿来资助那些收益以数十年而非选举周期来衡量的基础设施。

第二，运营能力。有效运营 AI 系统的人才、流程和机构知识。这意味着以有竞争力的薪资雇用技术人员（或创建吸引私营部门人才的奖学金和借调项目），建设内部培训体系，开发适合 AI 的采购模式，创建弥合 IT 与运营之间差距的组织结构。

第三，能够学习的监管框架。基于运营经验的监管，包含随 AI 能力演化而更新要求的反馈机制，既具体到可执行又灵活到可容纳技术变革。这意味着监管团队和采纳团队需要保持对话：理想情况下在同一组织内，至少也要有定期的结构化交流。

没有哪个政府把这三者都做得好。一些在做其中一两项。那些想明白如何同时推进三者的政府，将引领下一个时代的公共服务交付。那些将监管、采纳和基础设施视为独立事项（由不同机构处理、由不同预算资助、由不同使命支配）的政府，将产生 Pronghorn 所展示的那种矛盾：架在别人硬件上的雄心勃勃的平台，被运营依赖所削弱的主权愿景。

经济学：所有权拐点

AI 基础设施的经济学正在发生反转。主流模式（按 token 从云提供商租赁推理）正迎来它的 Netflix 时刻。套路人们并不陌生：以低价补贴来获取用户、在用户建立依赖后锁定市场、然后在迁移成本高企时提价。Netflix 在十年间将订阅价格翻了三倍。云 AI 提供商正沿着同一轨迹前行，而对大多数业务工作负载而言，自有比租赁更划算的交叉点已经到来。

理解这一交叉点，对于评估 AI 基础设施的组织、政府和投资者至关重要。单位经济学在定价页面上讲一个故事，在大规模生产中讲的则是截然不同的另一个故事。认识到差异的组织将掌握自己的 AI 未来。没有认识到的，将以不断上升的成本和不断下降的控制力去租用它。

按 Token 定价即循环租金

按 token 定价孤立来看似乎合理。每百万 token 几美元。每次推理几分之一美分。单位成本低到几乎感觉免费。这正是刻意为之。

云 AI 定价沿袭了云计算开创的套路。AWS 不是靠对单次 API 调用收高价成为千亿美元的生意，而是靠每次调用收一点点、让起步极其容易、让总支出极难预测和控制。计算实际成本与客户为访问所付价格之间的差额，就是整个商业模式。

AI 定价比传统云定价更糟糕，因为消耗量更不可预测。在传统云计算中，你可以从基础设施需求估算成本：多少台服务器、多少存储、多少网络带宽。在 AI 中，消耗取决于输入长度、输出长度、模型选择、重试模式、智能体循环以及多步工作流的涌现行为。一个在短文档上花费0.50美元的工作流，在长文档上可能花费15美元，而你在运行之前无法知道是哪种情况。

结果是系统性的预算超支。大规模运行 AI 的组织报告 AI 基础设施成本超支3到10倍。不是因为他们不善规划，而是因为定价模型在结构上就是不可预测的。每个 token 的价格是已知的。每个工作流、每个用户、每月、在生产中消耗的 token 数量，则是事先不可知的。

在可见的 token 单价之外，完整的成本结构还包括出站费（将数据从提供商的基础设施中移出）、存储费（微调模型、向量数据库、对话历史）、每次调用的开销，以及功能上充当定价机制的速率限制，迫使高用量用户进入更贵的层级。云 AI 的真实成本系统性地高于 token 单价所暗示的。组织通过实践而非定价页面来认识这一点。

前沿模型的 API token（OpenAI、Anthropic 和 Google 的最新模型）目前根据模型和输入/输出区分，每百万 token 的价格在15到75美元之间。这一定价反映的是基于价值的经济学：提供商收取的是市场愿意承受的价格，而非计算成本。一项为律所节省十个小时律师助理时间的法律分析，对律所值3,000美元。提供商将推理价格定在该价值的一个零头（比如30美元），而非计算成本，后者可能是0.30美元。

基于价值的定价对提供商是理性的。对大规模使用的客户则是不理性的。如果你每月执行1,000次法律分析，你就是在为成本300美元的计算支付30,000美元。在这个规模下，拥有硬件并自行运行推理不是边际优化，而是结构性的成本优势。

交叉点算术

在自有硬件上使用开源权重模型进行自托管推理，每百万 token 的成本为0.50到2美元。这与前沿 API 定价（每百万 token 15到75美元）的差距不是2倍或3倍，而是10到50倍，具体取决于模型和用量。

算术是具体的。一台配备 NVIDIA RTX 5090 或 RTX 6000 Ada GPU、128GB 系统内存和 2TB NVMe 存储的工作站级服务器，成本大约在8,000到15,000美元。功耗在400到600瓦之间，电费约为每月40到60美元。这台机器运行开源权重模型（Llama、Mistral、Qwen、Command R），覆盖绝大多数企业推理需求。

一家月均云 AI 支出在8,000到15,000美元的100人专业服务公司，在自有硬件上两到四个月即可回本。十二个月后，该公司在资本上花了15,000美元、电费600美元，对比的是超过120,000美元的云 API 成本。节省的不是20%，而是85%到90%。

对于更小的组织，数字同样直截了当。一个从平台即服务提供商迁移到现有硬件上自托管基础设施的真实案例显示，月费从35到80美元降至接近零：一次性硬件投资约500美元，十个月回本。关键洞察：硬件本来就在运行。添加生产工作负载的边际成本就是电费。

反对意见总是一样的：”但我们需要 GPT-5 或 Claude Opus 来保证质量。”对某些任务确实如此。前沿模型在新颖推理、复杂多步分析和高级创意任务上确实具有质量优势。但大多数企业 AI 工作负载（文档分类、实体提取、摘要、基于模板的生成、数据转换、搜索和检索）在本地运行的开源权重模型上可达到同等质量。前沿模型的溢价对大约20%的企业推理是真实的，对其余80%则是不必要的。

交叉点不是静态的，它只朝一个方向移动。GPU 的性价比在过去三代中每代提升大约3到4倍。NVIDIA A100（2020年）以约10,000美元提供312 TFLOPS 的 FP16 算力。H100（2023年）以约25,000美元提供989 TFLOPS。B200（2025年）以相近的价格点提供超过2,500 TFLOPS。每一代都使本地推理的单 token 成本更低。

与此同时，模型效率也在提升。量化技术（GPTQ、AWQ、GGUF）允许模型以4位或8位精度运行，质量损失极小，内存需求降低4到8倍。推测解码、连续批处理和 KV-cache 优化在不更换硬件的情况下将服务吞吐量提升了2到5倍。两年前需要80GB A100 的模型，今天在24GB 的消费级 GPU 上就能运行。

硬件更便宜与模型更高效的双重趋势意味着交叉点随每一代持续下移。两年前需要50,000美元 GPU 硬件的工作负载，今天需要15,000美元，两年后将需要5,000美元。这一轨迹指向一个具体的终点：AI 推理一体机。一台独立设备（比迷你冰箱还小、比台式机还安静）运行开源权重模型并提供 Web 界面，中小企业插上电源、接入网络，即可进行 AI 推理，无需任何云依赖。价格区间：2,000到5,000美元。运营成本：电费。组件今天已经存在，缺失的是让它在运营上无缝衔接的软件栈。

混合现实

自有并非万能解。云 AI 有一些自有无法复制的真正优势，大多数组织的实际情况将是混合模式。

前沿模型访问。 OpenAI、Anthropic 和 Google 的最新模型不以开源权重提供。如果某项任务确实需要前沿能力（复杂的多步推理、新颖的创意生成、高级工具使用），就不存在自有替代方案。开源权重模型与前沿模型之间的差距已显著缩小，但尚未消弭。

突发工作负载。 如果使用量波动剧烈（大多数日子100次调用，季末最后一天50,000次），为峰值负载配置硬件的固定成本过高。云的弹性确实解决了这一问题。对大多数组织而言，最优配置是自有基础设施承担基线负载，云端应对突发峰值。

零运维开销。 云 AI 不需要基础设施管理。对于没有技术运维能力的组织，这是前提条件而非便利。自有模式只在软件栈能将运维开销降至接近零时才成立。

全球可用性。 自有基础设施位于特定的物理位置。对于全球分布的组织，云 AI 提供了在用户所在地的推理能力。

这些局限定义了任何主权 AI 平台的设计约束。混合模式（自有基础设施处理经济上有利于自有的80%工作负载，云 API 处理需要前沿能力或突发容量的20%）是务实的架构选择。

但混合模式仍然反转了成本结构。组织不再为100%的推理支付云端费率，而是为20%支付云端费率、为80%支付接近零的边际成本。混合成本下降60%到70%，且组织在大部分工作负载上获得了数据主权、延迟降低和预算可预测性。

垂直价值捕获的转变

交叉点算术解释了为什么组织应该拥有推理硬件。垂直价值捕获模型则解释了整个 AI 基础设施层的经济学为何正在改变。

商品化算力（原始 GPU 时、按 token 推理、无差异化的 API 访问）毛利率为15%到20%。扣除基础设施成本、运营、许可、电力、冷却和折旧后，净利率缩至3%到5%。在这样的利润率下，标普500指数的回报更高而运营风险为零。销售原始算力这门生意，连买指数基金都不如。

经济学只有在你停止销售算力、开始销售工作成果时才成立。

以一家移民律所为例。签证申请工作流（受理、分类、资格审查、表格生成、支持信、风险评估）需要一名律师助理四到六个小时。律所成本：200到400美元的人工。律所向客户收费1,500到3,000美元。同一工作流用 AI 自动化，计算成本约3美元。问题不是”你能卖3美元的计算吗？”问题是”一份完成的签证申请包值多少？”答案：300美元，对律所仍然是个便宜货，每份申请节省100到200美元，而算力成本的利润率是100倍。

这就是使分布式 AI 基础设施可行的利润结构。不是作为与超大规模提供商比价的商品算力业务，而是作为一个平台，领域特定的工作流在分布式硬件上执行，每个工作流在底层算力上产生10到100倍的利润率。

价值在于工作流中编码的专业知识，而非运行它的算力。一个能正确处理边缘案例、通过合规检查、并经过数千次运行验证的签证申请工作流，比一个全新的实现更有价值。积累的质量是一种可防御的资产。它不像硬件那样贬值，而是随使用而增值。

这创造了 AI 工作流的应用商店经济学。工作流创作者（领域专家、顾问、垂直 SaaS 公司）构建工作流并发布。硬件运营者提供算力底座。平台协调交易。每一方按其贡献比例捕获价值。

数据中心规模的经济学

垂直价值捕获模型改变了各个规模 AI 基础设施的投资论点。

在小规模端：一台放在办公室储藏间的 GPU 服务器为一家专业服务公司处理文档工作流。资本成本：15,000美元。月运营成本：电费60美元。工作流执行收入：每月5,000到15,000美元。回本周期：一到三个月。

在中等规模：安大略省滑铁卢的 SPUR Innovation 正在部署2,000万美元的 NVIDIA B300 GPU 硬件：初始阶段24个节点，计划扩展至3亿到6亿美元（800到1,700个节点）。论点是明确的：每小时4.75美元的原始 GPU 出租将奔向底部，但将算力包裹在领域特定的工作流中，每 GPU 小时可捕获10到100倍的价值。

在数据中心规模：一个坐拥180兆瓦水电容量的设施，不靠与 AWS 竞争卖 GPU 小时生存。它靠运营一个工作流市场生存：签证申请工作流、合规审计工作流、财务分析工作流以及数百个其他垂直工作流在其硬件上执行，每一个产生商品算力不可企及的利润率。

经济效应随规模复合。更多的硬件容量吸引更多的工作流创作者，后者吸引更多的客户，客户消耗更多的算力。硬件运营者的利用率上升。固定成本在更多的收入上摊销。利润率随量增长而改善，而非压缩。

与传统云经济学的区别在于成本底线。云 API 定价将成本底线设定在提供商决定的 token 费率，该费率可随时上涨，客户对此无控制权。自有基础设施将成本底线设定在电费，一项稳定、可预测、在许多辖区还很便宜的公用事业成本。成本底线与收入天花板之间的距离就是利润空间。在自有基础设施上，这个距离是巨大的。

政府算力投资

投资 AI 算力基础设施的政府，无论是否明确表述，都在押注这一经济模型。

加拿大联邦15亿加元以上的算力投资，如果产生的基础设施只是卖商品化的 GPU 小时，在经济上是说不通的。超大规模提供商总能以更低的价格提供更高的可用性。这笔投资只有在基础设施为加拿大的企业、政府机构和机构运行高价值 AI 工作流时才有经济意义：工作流的产出价值远超算力成本。

这意味着基础设施投资必须与工作流生态系统配套。建设数据中心却不建设证明其存在价值的工作流市场，产出的是昂贵的闲置硬件。建设市场却没有基础设施，产出的是依赖外国算力的平台，而这正是投资本应消除的那种依赖。

经济逻辑将前一章的国家主权讨论与回报的实际问题联系起来。一个分布在全国各地算力节点上的分布式网络（在拥有富余电力的后工业城市、在大学研究实验室、在省级政府数据中心），在国内管辖下、用国内数据运行高利润率的垂直工作流。这就是使政府算力投资合理的经济模型。不是商品算力，而是价值捕获。

平台经济学

在这一交叉点上捕获价值的平台（连接自有基础设施与领域特定工作流）往往汇聚于一种既不同于传统 SaaS、也不同于传统云的收入架构。

订阅收入。 按席位的月费用于平台访问：核心工具、工作流构建器、监控仪表板、治理层。这是经常性的、可预测的、高利润率的，因为计算在客户自己的硬件上运行。平台的可变成本限于认证、应用托管和支持，这些共享固定成本在用户基础上摊销。当客户自有的基础设施处理推理时，每一家云 AI 业务中的主导成本（算力）由客户承担。贡献利润率结构性地可达70%以上。

工作流市场费用。 每次工作流执行的百分比抽成。工作流创作者根据对客户的价值定价。平台抽取份额。硬件运营者抽取份额。客户支付的价格锚定于产出价值，而非算力成本。一个使用3美元算力的300美元工作流，产生30到60美元的平台费用，工作流创作者捕获剩余的大部分。这是不需要增加人员即可扩展的收入层：一个工作流发布一次，每次运行都产生收入。

专业服务。 定制工作流开发、合规配置、集成项目。这些是高价值的业务（每个项目5,000到50,000美元），深化客户关系并产出可复用的模式。定制的合规策略、领域特定的检测器和定制工作流成为平台知识产权的一部分，每一个都降低了服务同一垂直领域下一个客户的成本。

硬件收入分成。 当客户的硬件通过市场为其他用户提供工作流服务时，硬件运营者获得收入分成。这创造了双向激励：更多的硬件节点扩大平台容量，更多的容量支持更多的工作流，更多的工作流产生更多的收入，更多的收入吸引更多的硬件运营者。飞轮效应是自我强化的。

与云 API 经济学不同（提供商的成本随客户使用量线性增长），平台模式主要是固定成本（应用托管、市场基础设施、支持），并捕获与正在完成的工作价值成比例的收入。利润结构随规模改善而非保持平坦。与纯 SaaS 不同（唯一的收入是订阅），市场和专业服务层增加了与客户关系深度成比例的收入，而非仅与席位数成比例。

成本坍塌轨迹

经济转型的最后一个维度是时间维度。本章所述的趋势（硬件成本下降、模型效率提升、工作流生态系统增长）不是一次性的转变，而是复合轨迹。

每十八到二十四个月，在自有硬件上运行给定推理工作负载的成本下降大约50%到70%，由 GPU 改进和模型优化驱动。这意味着交叉点（自有比云租赁更划算的用量阈值）持续下移。五年前只对大型企业才合理的自有方案，现在对中型公司已经合理。再过五年，对小企业也将合理。十年后，每间办公室的 AI 推理一体机将像 Wi-Fi 路由器一样寻常。

这一轨迹对今天做基础设施决策的组织有一个具体含义。现在就建立自有能力的组织（技能、流程、在自有基础设施上运行 AI 的运营肌肉）将处于每次成本下降的有利位置。它们将乘势而行。等待的组织（继续从云提供商租赁、继续支付 token 溢价、继续接受不可预测的成本）会发现随着依赖加深，迁移成本也在增长。

Netflix 的比喻最后一次具有启发性。当 Netflix 提价时，那些积累了保存的节目库、观看习惯已被深度画像、全家人已习惯了界面的客户，面临的迁移成本远超价格涨幅。他们留下来，付更多的钱。AI 云租赁模式制造了同样的锁定：你的数据在提供商的系统里，工作流建立在提供商的 API 上，团队熟悉的是提供商的工具。每个季度的使用都在增加迁移成本。

经济转型不是”云不好，自有好”。它是一个认知：经济学正在反转，交叉点对大多数工作负载已经到来，认识到这一转变的组织和政府将获得随时间复合的结构性成本优势。定价页面说一套。算术说另一套。算术终将胜出。

第 6 章

未来展望

前五个部分描述了一个已然改变的世界、基础设施中的一道空白、一种预示这类空白如何被填补的历史规律、完整技术栈的具体形态，以及构建它所需的种种转型。剩下的问题很简单：当这一切真正建成时，会发生什么？

不是乌托邦版本。不是路演幻灯片版本。而是具体的、扎根现实的、有时令人不安的版本：真实的行业吸纳一个新的基础设施层，算力架构围绕主权而非规模进行重组，横跨数百页篇幅的论证抵达其自然的终点。这里描述的未来并非对必然之事的预测，而是对一种可能性的勾勒：当问责基础设施就位时，什么将成为可能；而当它缺席时，什么仍处于风险之中。

工作的新面貌

关于 AI 与工作，最常被问到的问题是”哪些岗位会被取代？”这是一个错误的问题。正确的问题是：当完整的基础设施栈建成，问责、算力、交换、信任、执行、身份和市场各层协同运转时，工作会呈现什么面貌？不是聊天机器人版本，用户输入一个问题，得到一个看似合理的回答。而是完整版本：AI 系统执行多步骤的专业工作流，拥有与人类专业人士一直以来维护的相同的文书记录、审计轨迹和治理边界。

聊天机器人版本与完整版本之间的差距，就是演示品与可部署系统之间的差距。演示品令人印象深刻，可部署系统则要经得起监管者、审计师、保险公司和客户的检验。大多数行业仍停留在演示阶段，不是因为 AI 不够好，而是因为围绕它的基础设施不够好。问责层不存在，治理边界没有被执行，成本归因不可见，溯源链条缺失。

当这些都不再缺失时，一切将如何改变？

律师事务所

一家中等规模律所的初级律师花十个小时审阅一批供应商合同，客户正在准备一项收购。工作内容很直接，但量大：逐份阅读合同，提取关键条款，识别与客户标准条款的偏差，标记赔偿、终止和转让条款中的异常之处。这位初级律师的计费标准是每小时 300 美元，客户为这部分尽职调查支付 3,000 美元。交付物是一份红线标注和一份摘要备忘录。

这项工作几十年来的做法毫无变化。它是大量的、高精度的阅读工作，需要法律训练才能做对，需要注意力集中才能做全。它也恰好是构建良好的 AI 工作流能以接近人类水准完成的工作，不是因为语言模型比律师更聪明，而是因为这项任务本质上是大规模的模式匹配，而这正是语言模型的强项。

现在，设想同样的工作在完整基础设施栈就位的情况下如何运行。

工作流从客户将合同上传到安全的接收端点开始。文件始终不离开事务所的基础设施，它们在事务所物理控制下的本地计算节点上处理。这不是附加在云服务上的隐私功能，而是一种算力架构：硬件坐落在事务所的机房里，由事务所拥有，不受任何外部服务条款的约束。”数据去了哪里？”这个数据主权问题有一个一个字的答案：哪里也没去。

工作流的第一阶段是提取。一个 Agent 逐份阅读合同，提取结构化数据：当事方名称、生效日期、续约条款、赔偿条款、责任限制条款、转让限制、管辖法律、通知要求。这不是自由文本摘要，而是按照预定义的 schema 进行结构化提取。每个提取字段都携带元数据：来源页码和段落、提取的置信度分数，以及执行提取的模型版本。

第二阶段是比对。提取出的条款与客户的标准条款进行对比，这是事务所从多年执业中整理出的参考集。偏差被标记出来。不是含糊的警报（”这个条款看起来不太寻常”），而是具体的、有出处的发现：”第7.2(a)条赔偿范围超出客户标准，纳入了间接损失。来源：供应商协议第47号，第14页第3段。置信度：94%。”

每一条标记都是一条引用链。读者可以从摘要备忘录追溯到特定文件中的特定条款，再追溯到触发标记的比对规则。这就是注脚层：与初级律师本应产出的文档相同，自动生成，且来源归属是可验证的，而非仅靠信任。

第三阶段是人工审核。工作流将标记项路由给主管合伙人。未被标记的项目（所有条款都与客户标准一致、提取置信度高的合同）无需人工干预即可通过。合伙人只审核例外情况：偏差条款、置信度低于阈值的提取结果、比对规则无法分类的条款。

治理信封包裹了整个工作流。它记录了处理了哪些数据、哪些模型执行了推理、应用了什么置信度阈值、哪些项目被自动批准、哪些经过了人工审核，以及谁签字确认。成本树分解了总支出：文档处理 2.30 美元算力，比对分析 0.40 美元，报告生成 0.15 美元。总计：2.85 美元。

客户收到的交付物不变：红线标注和摘要备忘录。但在其下方是一条任何纯人工流程都从未产出过的溯源链。每项发现都可追溯，每笔成本都可归因，每条数据流转都有记录。客户支付的不是 3,000 美元换十个小时的律师时间，而是以此的零头获得了一份在可衡量的维度上比人工版本更具问责性的成果。

初级律师的角色没有消失，而是发生了转变。律师不再是阅读合同的人，而是设计比对规则、校准置信度阈值、审核边缘案例，并根据合伙人反馈改进工作流的人。专业知识不变，工作产出不变，角色从生产变成了治理。

警察局

一名加拿大中等规模警察局的警员出警处理一起家庭纠纷。现场处置完毕后，警员回到巡逻车，开始撰写事件报告。这是警员们一致认为最痛苦的工作环节：在笔记本电脑上花四十五分钟到一个小时打字，将现场情况转化为档案管理系统要求的结构化格式。法条引用、地址、涉事人员信息、叙述描述、证据清单。

据估计，警员将约 40% 的值班时间花在行政文书上。对于一个五十人的警察局来说，这意味着大约二十名警力当量在做文书工作而非巡逻。按全成本计算，行政负担每年给一个中等规模的警察局带来二百万至三百万美元的开支。

基础设施完备后的版本截然不同。

警员对着手机或随身设备口述。录音在本地转录：设备位于警察局自己的设施内，而非弗吉尼亚或加利福尼亚的服务器上。在这里，加拿大数据主权不是一个营销卖点，而是法律要求。事件数据、受害人信息、嫌疑人身份：任何数据离开加拿大基础设施都会违反 PIPEDA 及各省隐私法规。算力在本地，数据留在本地。

转录内容进入一个提取工作流。Agent 解析叙述内容并填充结构化字段：日期、时间、地点、涉事方、罪行代码、法条引用。每个字段都带有置信度分数。地址提取的置信度为 95%：警员清晰地提到了”147号 Main Street”。法条引用的置信度为 72%：警员用口语描述了违法行为，Agent 将其映射到最接近的《刑法》条款，但映射存在歧义。

这就是一个生成文本的系统与一个知道自己不确定什么的系统之间的区别。置信度校准（通过与专注于校准提取的大学实验室的研究合作开发）意味着系统永远不会默默猜测。高置信度字段以清晰的形式呈现，低置信度字段被标记、高亮并路由给人工核实。警员审核的是一份有五六处标记的草稿，而不是从头撰写整份报告。

主管接收标记项。工作流按照部门自身的政策进行路由，这是一个配置步骤，而非软件限制。有的部门要求所有法条引用不论置信度高低都须审核，有的要求涉及未成年人的报告必须经主管签字。路由规则编码了关于什么重要、什么不重要的机构知识。

审计轨迹记录一切。哪位警员发起报告，AI 起草了什么，警员修改了什么，主管批准了什么。每一步都有时间戳。模型版本、每次提取的置信度分数。这份审计轨迹不是锦上添花，它是可能成为刑事诉讼证据的报告的必要条件。文件本身的证据保管链必须是可证明的。

从出警结束到报告完成的总用时：十分钟。从四十五分钟缩减而来。警员提前三十五分钟回到街上巡逻。一个班次下来，这意味着数小时的巡逻时间得以恢复。对一个五十人的警察局而言，一年下来大约节省三十万至六十万美元的产能，不是因为减少了警务工作，而是因为减少了文书时间。

警员在报告撰写中的角色从作者转变为编辑。所需专业能力没有降低，而是更加集中。警员仍然需要了解法条代码，仍然需要核实事实，仍然需要对报告内容和事件措辞作出判断。但将口头观察转化为打字的、格式化的、正确引用的文档这一机械性工作，由基础设施来完成。

要使其在实践中真正可行，有两个非同小可的前提。第一，技术必须真正可靠：不是演示级可靠，而是可靠到警员在连续数周的日常使用后能够信任它。置信度校准正是建立这种信任的机制：系统通过准确报告自身的不确定性来赢得信誉。第二，机构层面的推广必须审慎管理。如果警员感觉 AI 在监视或评判他们，就会抵触，而且他们的抵触是合理的。定位很重要：这是一个节省时间的起草工具，而非质疑判断的监控工具。能把握这一区分的警长将看到技术被采纳，把握不好的则会看到设备在巡逻车里闲置。

政府部门

加拿大联邦采购是一个为周全与公平而设计的流程，这在实践中意味着它缓慢、昂贵且纸张堆积如山。一个典型的技术项目招标书会收到二十到四十份投标文件，每份五十到两百页不等。评审委员会花数周时间阅读、打分，并将这些文件与招标书中公布的加权标准进行比对。

流程缓慢是因为它必须公平。每份投标必须由同一委员会按照同一标准评审。每个分数必须经得起质疑。每个决定必须有记录，以应对投标方的质疑。文档要求的存在是因为公共资金利害攸关，而落选方有合法权利挑战流程。这不是官僚主义的浪费，这是公共支出问责的代价。

评审流程本身的成本相当可观。五名评审员用三周时间评估一次大型采购，大约代表六百人时的高级公务员时间。按全成本计算，单次采购的评审劳动力成本为五万至八万美元，合同还没签呢。

有了完整的基础设施栈，工作流的形态改变了，但问责要求丝毫不减。事实上，它们被强化了。

投标文件被导入政府自有基础设施上的处理管线。每份文件被解析，工作流提取与招标书评审标准对齐的结构化数据。技术要求：投标方的方案是否满足每项强制性要求？评分标准：投标方的方案在评审框架的加权体系中表现如何？财务方案：成本分解是否内部一致？是否符合预算参数？

提取的结果生成一张比较矩阵。对于每个标准，每个投标方的回应被总结、打分，并标注来源段落。评审员看到的是结构化对比，而非四十本非结构化文本的活页夹。每个分数都链接到产生它的特定投标文件中的特定段落。引用链一路贯穿到底。

这并不取代评审委员会。委员会仍然作出判断：哪家的技术方案最可信，哪家的成本估算最务实，哪家的风险缓释策略最令人信服。但委员会的时间花在判断上，而非阅读上。三周的评审压缩为三天。评审质量提升了，因为委员会基于结构化比较工作，而非凭借上周二读过什么的个人记忆。

治理信封在这里尤为关键。投标方数据必须完全隔离：投标方 A 的专有方案不得对审阅投标方 B 的评审员可见，任何投标方数据不得在评审团队之外被访问。执行层管理这一切：每份文件上的数据分类标签、每个处理步骤的访问控制、记录每次访问的审计日志。如果落选方挑战流程，政府可以拿出一份完整记录：谁看了什么、什么时候看的、分数是如何得出的。问责基础设施不仅支撑了采购流程，它产出的文档比任何人工流程都更全面。

成本树呈现了全貌。处理四十份投标文件并按加权标准评分：47 美元算力。比较分析生成：12 美元。报告格式化：3 美元。总算力成本：62 美元。对比五万至八万美元的委员会劳动力成本。成本不是重点，文档质量才是。但成本差异大到无法忽视。

二十人的公司

安大略省南部有一家小型制造企业，二十名员工，年收入四百万美元，数据科学家的数量为零。办公室经理用 QuickBooks 和一堆 Excel 表格处理开票、采购订单和应付账款。公司每月处理约三百张发票，有些来自少数几个固定供应商，有些来自一次性供货商。两名员工每月在手工数据录入上花费约六十小时。

这家公司永远不会雇用数据科学家。他们永远不会聘请咨询公司制定 AI 战略。他们永远不会构建定制的机器学习管线。经济账算不过来。一名数据科学家年薪十二万美元，一次咨询项目最少五万美元。而整个发票处理功能每年的人力成本约四万美元。用定制 AI 开发来自动化它，比手工做还贵。

平台方式改变了这个等式。

一个可视化工作流构建器（拖拽操作，无需编程）让办公室经理搭建出一条发票处理管线。构建器提供预制组件：一个文档接收节点，接受 PDF、图片和邮件附件；一个提取节点，抓取供应商名称、发票号码、日期、行项目、金额和税额；一个验证节点，将提取数据与公司的供应商名单比对并标记差异；一个路由节点，将验证通过的发票发送到相应的审批队列，将例外情况标记供人工审核。

办公室经理不需要理解机器学习。她需要理解自己的开票流程，而她确实理解，因为她已经做了八年。工作流构建器将她的流程知识转化为可执行的管线。组件处理 AI 部分，她处理逻辑部分。

管线运行在办公室经理桌子底下的一台服务器上。不是比喻，是字面意思。一台五千美元的设备，大约一个小型台式机箱的大小，在本地运行推理。公司的财务数据永远不出楼。没有云依赖，没有按用量计费的月度订阅，没有授予第三方处理公司财务记录权利的服务条款。

当管线运转起来（经过两周的校准，它无需人工干预即可处理 85% 的发票），办公室经理手中就有了一件有价值的东西：一套编码了她专业知识的工作自动化。每月六十小时的手工数据录入变成了十小时的例外处理。

而市场层在这里创造了新的可能。办公室经理的发票处理工作流并非她的公司独有。安大略省的每家小型制造企业都在用类似格式处理来自类似供应商的发票。将公司特定的供应商名单替换为可配置参数后，这个工作流就是一个可复用的资产。

她把它发布到市场上。其他小型制造企业发现它，部署在自己的本地硬件上，配置自己的供应商名单，运行起来。她从每次部署中获得一笔费用。她八年的开票经验（哪些字段重要、哪些验证规则能捕获真正的错误、哪些例外情况需要人工关注）现在被产品化了。不是她需要维护的 SaaS 应用，而是一个运行在他人硬件上、在他人控制下、将她的专业知识编码在逻辑中的工作流。

这就是领域专长的创作者经济。不是内容创作，不是软件开发，而是流程知识：以可执行形式捕获，通过市场分发。入门门槛不是技术能力，而是领域知识。二十人公司的办公室经理拥有硅谷任何一家 AI 初创公司都不具备的东西：八年为小型制造企业处理发票的实战经验。这份经验，编码为工作流，是有市场价值的。

基础设施栈在每一层上使这一切成为可能。问责层追踪每次执行的成本和溯源。算力层在本地运行，不依赖云。市场层处理分发和支付。信任层积累质量指标（执行次数、自动批准率、错误率），让买家建立信心。治理层确保一家公司的财务数据永远不会交叉到另一家公司的工作流实例中。

没有完整的栈，这个故事中的任何一环都会断裂。没有本地算力，二十人的公司不会把财务数据放到云上处理。没有市场，办公室经理的工作流只能留在内部。没有问责，买家无法评估工作流是否好用。没有治理，受监管行业所要求的数据隔离就无从谈起。栈作为一个整体运转，否则根本无法运转。

大学

一所商学院为管理信息系统课程的一百二十名学生开设了一个三次课的工作坊。学生们不是计算机科学专业，不写代码。他们使用 Excel、PowerPoint，偶尔用一下数据库查询。他们学的是管理信息系统，不是构建信息系统。

第一次课是刻意制造的摩擦。学生收到十四份市场分析师职位的简历。他们花九十分钟手动筛选每份简历：阅读资质，与职位要求比对，按评分标准打分，写笔记。过程枯燥、不一致、缓慢。到最后，大多数学生筛完了所有十四份，但在排名上达不成共识。他们对评分标准的理解产生了分歧。到第九份简历时注意力开始涣散。笔记不完整。

目的不是教简历筛选，而是让学生切身感受手工完成重复性、判断密集型工作的痛苦，这样他们才能理解自己即将自动化的是什么，以及在自动化中可能失去什么。

第二次课引入工作流层。每个学生使用可视化构建器搭建一个单份简历处理工作流。工作流有三个阶段：数据提取（从简历中提取姓名、教育背景、工作经验、技能）、评分（按照定义的评分标准评估是否符合职位要求）、输出（生成结构化评估，包含分数、推理过程以及支持每项评分的来源段落）。无需编程，拖拽操作，连接组件，配置参数。

关键的教学时刻出现在学生查看输出结果时，他们发现它包含了手工筛选所没有的东西：引用。每个分数都链接到简历中支持它的具体段落。”分析能力评分 4/5，依据：’主导跨职能客户细分数据分析，将定向投放准确率提升15%’（简历，工作经验部分，第2段）。”AI 不只是给简历打了分，它还展示了推理过程。

这引出了真正的课题：校准。学生审阅 AI 的评估结果，并与自己的手工筛选进行比较。哪些地方一致？哪些地方不一致？不一致时，谁是对的？有时候学生捕捉到了 AI 遗漏的东西：就业空档中的警示信号、评分标准未涵盖的职业轨迹规律。有时候 AI 捕捉到了学生遗漏的东西：埋在技能栏的相关认证、学生在第十二份简历时注意力略过的量化成果。

校准练习教会学生一件任何编程课都教不了的事：如何评价 AI 的输出。不是看它听起来好不好，而是看它实际上好不好。不是看文字是否流畅，而是看底层判断是否合理。这是新的职业素养。问题不是”你会编程吗？”问题是”你能辨别 AI 什么时候对、什么时候错吗？”

第三次课将单份简历工作流组合成一条批处理管线。学生各自的工作流成为更大系统的组件：导入全部十四份简历，每份通过评分工作流处理，汇总分数，应用排名逻辑，生成最终推荐，包含前三名候选人及每个选择的推理链。一个推荐 Agent 将各份单独评估综合为比较分析。人工审批节点设在关键节点：学生必须签字确认最终排名后才能提交。

到第三次课结束时，本周一开始还在手工筛选简历的学生，已经构建了一条完整的 AI 管线，具备成本追踪（他们能看到每份简历消耗了多少算力）、问责信封（每项推荐都可追溯到特定文件中的特定证据）和治理控制（需要人工判断的审批节点）。

他们没有学编程。他们学到了更重要的东西：如何设计、部署和治理一个 AI 系统。如何设定置信度阈值。如何决定哪里需要人工审核、哪里可以自动批准。如何阅读成本树、理解自己花了多少钱。如何构建一个展示推理过程的系统。

这就是可规模化推广的教育模式。不是”学会提示”，那是一个小把戏。不是”学会编写 AI 代码”，那是一个专业方向。”学会构建和治理 AI 工作流”才是每一位知识工作者都将需要的素养，正如上世纪九十年代每位知识工作者都需要学会电子表格，二十一世纪头十年都需要学会数据库一样。率先教授这一内容的大学，培养出的不仅是能使用 AI 工具的毕业生，更是能构建他人所用系统的毕业生。

在三次课内从手工操作进阶到受治理的 AI 管线，只有在基础设施栈存在时才有可能。没有可视化工作流构建器，学生需要编程。没有问责层，引用链和成本追踪不会存在。没有治理控制，审批节点和置信度阈值无从设置。没有本地算力，大学将不得不把学生数据发送给云服务商，随之而来的隐私审查会在工作坊开始之前就将其扼杀。

变了什么，没变什么

五个行业，五场变革，每一场都呈现相同的模式。

工作没有消失，而是重组了。律师仍然审阅合同，但审阅的是被标记的例外，而非逐页阅读。警员仍然写报告，但编辑的是 AI 草稿，而非从零打字。采购评审员仍然作出判断，但基于的是结构化比较，而非阅读活页夹。办公室经理仍然处理发票，但处理的是例外情况，而非手工数据录入。学生仍然评估候选人，但治理的是一条 AI 管线，而非手动筛选简历。

在每一个案例中，人的角色都从生产转向了治理。从”做这件工作”变成”确保这件工作被正确完成”。从输出到监督。

在每一个案例中，基础设施栈都是使能条件。移除任何一层，变革就会瓦解。移除问责，输出不可审计。移除主权，数据无法留在本地。移除市场，专业知识困在个体从业者手中。移除治理，受监管行业无法参与。移除置信度校准，系统就会默默猜测而非标记不确定性。

AI 是否取代岗位，是一个错误的问题。AI 取代的是任务：那些高频次、模式匹配、结构性重复的任务。主要由这些任务构成的岗位将萎缩，主要由判断、校准和治理构成的岗位将增长。两者之间的过渡才是真正困难的部分，而这种过渡需要的是基础设施，而非仅仅是技术。

技术今天就已经存在。前沿语言模型已经能够完成上述案例中描述的大部分提取、分析和生成工作。今天尚不存在的是使技术可部署的基础设施：问责信封、引用链、成本树、治理边界、置信度校准、本地算力、市场分发。

构建这一基础设施，就是尚待完成的工作。

下一篇：智能体与人类并肩

智能体与人类并肩

上一章描述了当完整的基础设施栈存在时，工作是什么样子。在每一个案例中（律所、警察局、采购部门、小型制造商、大学）都发生了相同的结构性转变：人类的角色从生产转向治理。从亲自做工作，转变为确保工作被正确完成。

这种转变不会自动发生。它需要一种 AI 智能体与部署它们的人类之间的特定协作模式。这种模式有一个名字。它叫做团队。

不是比喻。是一种字面意义上的组织结构：AI 智能体和人类各自占据明确的角色，具有清晰的边界、显式的信任关系，以及在每一次交互中进行中介的问责基础设施。智能体承担可规模化的工作：提取、分类、比较、生成、路由。人类承担关键性的工作：判断、校准、例外处理、政策设计，以及对任何重要事项的最终决定权。

这就是 AceTeam 的含义。不是一个产品名。而是对 AI 在任何真实利害关系的环境中必须如何运作的描述。

信任是赢得的，不是配置的

AI 部署中最常见的错误是将信任视为一个二元开关。要么信任系统，要么不信任。要么让 AI 自主运行，要么人工检查每一项输出。这种二元框架产生两种失败模式：部署过于激进的组织（信任尚未证明自身的系统）和部署过于保守的组织（要求对每一项输出进行人工审查，直到审查负担使系统失去价值）。

AI 系统中的信任与任何组织中的信任运作方式相同。它通过长期的绩效表现来赢得。

新员工入职时，他们的工作会被密切审查。每一份交付物都会被检查。每一项决定都会被二次验证。这不是因为员工无能，而是因为组织尚无能力的证据。信任只有在犯错成本为零的场景下才是默认状态。在专业服务、执法、医疗和政府领域，犯错成本永远不为零。

随着员工展现出持续的质量表现，监督逐渐放松。审查变成抽查。抽查变成基于例外的检查。最终，对于成熟的任务，员工独立工作，管理者监控汇总质量指标而非逐一审查产出。

AI 系统应当遵循同样的梯度。当组织首次部署工作流时，人工审查率应为 100%。不是因为 AI 不好，而是因为组织尚无证据证明它好。每一项输出都被审查。每一个置信度分数都与人类自己的评估进行对照验证。每一个边缘案例都被记录在案。

随着系统展现出持续的质量（问责基础设施以可衡量的数据记录了这种一致性），审查率下降。置信度阈值提高。自动批准覆盖更多场景。人类注意力集中在真正需要它的案例上：低置信度的提取、异常模式、系统从未见过的新型输入。

这种信任梯度不是任何特定 AI 模型的功能。它是围绕模型的基础设施的属性。问责层记录系统做了什么。信任层将这些记录聚合为量化的绩效档案。执行层根据绩效档案调整监督级别。没有这一基础设施，信任梯度就是不可见的：组织是在猜测系统是否值得信赖，而非在度量它。

人在回路中是架构，不是补丁

大多数 AI 系统将人工审查视为错误处理机制。AI 运行。如果出了问题，召唤人类来修复。这是本末倒置的。

人在回路中不是系统失败时才发生的事。它是让系统运作的要素。它是一个设计原语：工作流架构中刻意的、有意图的步骤，而非异常路径。

这种区别很重要，因为它改变了人类在流程中出现的位置和他们出现时所做的事情。

在错误处理模型中，人类在 AI 已经提交输出之后出现。人类的任务是捕捉错误。这是被动的、令人沮丧的，且无法规模化：人类总是在追赶，总是在善后，总是在审查可能已经被下游环节处理过的输出。

在架构模型中，人类出现在设计好的检查点上，这些检查点正是他们的判断最有价值的地方。工作流根据置信度、风险和政策将工作路由给人类，而非根据失败。文档分类置信度低于阈值被路由给人类，不是因为 AI 失败了，而是因为工作流被设计为在不确定的情况下寻求人类判断。超过一定金额的金融交易被路由给人类，不是因为出了问题，而是因为组织的政策要求对高价值决策进行人工批准。

这与治理良好的组织的架构相同。银行柜员独立处理常规交易。超过阈值的交易需要主管批准。超过更高阈值的交易需要分行经理。升级不是由失败触发的，而是由政策触发的。系统的设计使人类判断被施加在其价值最高的地方。

将人在回路中视为架构而非错误处理的 AI 工作流，产生一个具体的、可衡量的结果：人类将时间花在判断上，而非花在看管上。AI 处理数量。人类处理例外。基础设施处理两者之间的路由。

治理是架构，不是政策

每个组织都有规则。书面政策、标准操作程序、合规要求、风险容忍度。在大多数组织中，这些规则以文件形式存在：共享文件夹中的 PDF、书架上的手册、年度培训的幻灯片。对这些规则的遵从依赖于个人自律。规则规定了应该发生什么。但没有任何机制确保它真的发生。

当组织规则成为工作流架构时，它们就变得可执行了。一条说”处理交易前验证身份”的标准操作程序变成了工作流节点。下一个节点在验证完成之前不会执行。员工无法跳过它，因为系统不会在没有它的情况下推进。一条说”升级任何提到法律诉讼的投诉”的政策变成了路由规则。当检测到关键词时，升级自动发生。没有人需要记住政策，因为政策就是系统。

这就是制造业几十年前学到的。流水线强制执行流程顺序。质量被内建于系统中，而非依赖于个人的警觉。AI 的等价物是一个工作流，其中治理约束是结构性的：编码在工作流图中，在每个节点执行，在每一步被审计。

问责基础设施使这一点在前所未有的层面上成为可能。每一个治理决策都被记录：什么规则被应用、在哪个节点、用什么数据、产生什么结果。审计追踪是执行的自然副产品，而非事后的法医重建。当监管机构问”你们如何确保合规？”时，答案不是”我们培训员工并希望他们遵守规则。”答案是”系统的设计使得受治理步骤的不合规在架构上不可能发生。”

这并不消除对人类判断的需要。它使之集中化。治理架构处理可以形式化的规则。人类处理无法形式化的判断：边缘案例、新型情况、没有规则预见到的相互竞争的优先级。基础设施将人类判断从机械性的合规工作中解放出来，使其可以被施加在只有人类才能施加的地方。

通过校准置信度实现安全

AI 安全中最深层的问题不是 AI 系统会犯错。人类也会犯错。问题是 AI 系统不知道自己何时在犯错，或更精确地说，它们声称的置信度并不可靠地对应于实际准确率。

一个对实际正确率仅 50% 的输出声称”95% 置信”的模型，不是对其置信度略有偏差。它在结构上是不可靠的。基于该置信度设定的任何阈值（”90% 以上自动批准，90% 以下人工审查”）都是无意义的。阈值创造了安全的幻觉而非安全的实质。

校准置信度解决了这个问题。一个校准过的系统的置信分数名副其实：0.8 的分数意味着输出大约 80% 的时间是正确的。这使基于阈值的决策变得有意义。组织可以设定政策：”0.85 以上自动批准，0.6 到 0.85 之间标记人工审查，0.6 以下阻止”，而这些阈值产生可预测的、可衡量的结果。

实现校准需要视角的多样性。单一模型被多次提出相同问题，会产生相关误差：它以相同的方式犯相同的错误。一组多样化模型的集成（不同架构、不同训练数据、不同提示策略）会产生有建设性的分歧。当集成一致同意时，这种共识是有意义的。当它们分歧时，分歧本身就是不确定性的真实信号，应当触发人类关注。

从校准置信度产生的安全架构与大多数 AI 系统今天使用的”安全过滤器”有根本的不同。安全过滤器是二元的：输出通过或不通过。校准置信度是一个梯度：系统知道自己知道多少，而这种自知影响工作流中的每一个路由决策。系统确定的案例自动通过。系统不确定的案例被路由给人类。系统深度不确定的案例被完全阻止。

这是每一个高风险领域中安全运作的方式。航空不会仅凭一个仪表来判断飞机是否安全。它交叉参照多个独立仪表，并将任何不一致标记给飞行员关注。医学不会仅凭单一检验结果。它会要求确认检验，并将模糊结果路由给专科审查。原理相同：安全来自校准过的不确定性，而非来自自信的断言。

团队

AceTeam 中的”Team”这个词是刻意的。它编码了一种关于 AI 系统应当如何在真实世界中运作的具体愿景。

一个团队有角色。AI 智能体处理提取、分类、分析、生成，即可随算力规模化的认知任务。人类处理判断、校准、政策和监督，即需要理解利害关系、上下文和后果的任务。

一个团队有信任关系。新成员被密切监督。经过验证的成员赢得自主权。信任是被衡量的，而非被假设的。

一个团队有治理。规则由工作的结构来执行，而非依赖个人自律。标准操作程序就是架构。合规是结构性的。

一个团队有安全机制。多元视角捕捉任何单一视角会遗漏的错误。不确定性被呈现，而非被压制。需要人类关注的案例得到人类关注。

一个团队有问责。每一个动作都被记录。每一项成本都被归属。每一个结论都可追溯。每一个决策，无论由人类还是智能体做出，都产生一份可被审计、验证和质疑的永久记录。

这不是 AI 取代人类的愿景。这是 AI 系统与人类在一种基础设施内协同工作的愿景：这种基础设施使他们的协作值得信赖、可被审计、安全可靠。智能体承担规模。人类承担治理。基础设施让双方都对彼此负责。

做对这一模式的组织不仅会更高效。他们将比仅依赖人类自律的组织更值得信赖，因为他们的问责是架构性的，他们的治理是结构性的，他们的信任是被度量的而非被假设的。

下一节：分布式架构

分布式架构

当下 AI 基础设施的发展轨迹指向一种前所未有的集中化。Stargate 项目：五千亿美元。微软一年的数据中心支出：八百亿美元。Google、Amazon、Meta，各自投入数百亿美元建设消耗小城市发电量的 GPU 集群。这些投资背后隐含的假设是：AI 算力必须集中化，规模是通向能力的唯一路径，智能的未来属于建造最大机器的人。

这个假设是错误的。不是在道德层面，而是在结构层面。集中化制造脆弱性、依赖性和控制力的集中，而这些是一项关键基础设施技术所不能承受的。AI 算力的正确架构，与让互联网具有韧性的架构相同：分布式。小型、自主、冗余的节点通过协议而非公司所有权相连。

集中化的推动力是可以理解的。训练前沿模型确实需要庞大的计算集群：数千块 GPU 并行运行数月。这一环节确实需要规模。但训练不是瓶颈。训练只发生一次。推理（运行训练好的模型以产生输出）发生数十亿次。而推理才是经济价值所在。每一份审阅的合同、每一份起草的报告、每一张处理的发票、每一次辅助的诊断，都是推理。

推理不需要三百亿美元的数据中心。推理可以在一台五千美元的设备上运行。AI 的经济学正在被错误的约束条件所塑造。

硬件演进轨迹

第一代计算机占据整个房间。后来缩小到桌面。再后来装进口袋。AI 算力走在同样的轨迹上，但速度更快。

2020 年，运行一个有能力的语言模型需要数据中心里一组高端 GPU 集群。2023 年，开放权重模型开始在消费级 GPU 上运行。到 2025 年，一台五千美元的工作站可以运行五年前需要数据中心才能运行的模型。本地模型与前沿云模型之间的质量差距是真实的但在缩小，而对于大多数专业应用（文档处理、报告生成、结构化提取、工作流自动化），本地模型已经够用。

成本曲线呈指数下降。GPU 推理的每美元性能以每年约 40% 的速度复合增长。今天花一万美元的机器，明年六千美元就能达到同样的能力，后年三千六百美元。到 2030 年，运行一套完整企业 AI 栈所需的硬件（语言模型、嵌入模型、视觉模型、语音转录），成本将低于一台高端笔记本电脑。

形态因子与成本同步收缩。当前一代推理硬件看起来像一台机架式服务器。下一代将像一台桌面设备，大约迷你冰箱大小，放在服务器间里，与 Wi-Fi 路由器和网络交换机为邻。再下一代将嵌入现有基础设施：已经存储你文件的 NAS、已经管理你网络流量的网络设备、已经运行你暖通空调的楼宇管理系统。

五年内，一台办公家具大小的设备就能运行今天的前沿模型。十年内，具备推理能力的硬件将像 Wi-Fi 路由器一样无处不在。每间办公室、每所学校、每座政府大楼、每个警察局都拥有本地 AI 算力。不是作为奢侈品，而是作为标准基础设施，就像每栋建筑都有电力、网络连接和空调一样。

这不是对未来技术的臆测。每一个组件今天都已存在。开放权重模型可在本地运行。来自 NVIDIA、AMD、Intel、Apple 以及数十家初创公司的推理优化芯片正在能效比上激烈竞争。本地推理的软件栈已经成熟。缺失的一环是编排层：将通用硬件整合为一个连贯系统的软件，管理模型加载、工作流路由、成本追踪和故障转移。建好编排层，硬件就变成了一个 AI 部门。

一项关键发展正在加速这一轨迹：编译式神经程序的出现。多个独立的研究团队和公司在同一架构洞见上不约而同：你可以将大型昂贵模型的能力蒸馏成微型的专用程序，运行在十亿参数以下的模型上。一条自然语言规范（”判断该行为是否违反财务披露政策”）被编译成一组紧凑的权重（几个兆字节），可以加载到本地模型上在本地执行，成本几乎为零，无需 API 调用，无需互联网连接，无需按 token 计费。

这些编译程序可以像普通软件库一样进行版本管理、共享和组合。一个合规团队用英语编写他们的政策规则，每条规则编译成一个专用检测器，在运行组织 AI 工作流的同一硬件上本地执行。这种检测不是通用模型对政策进行推理，而是一个专为该规则调优的特制神经程序，毫秒级执行。

这对分布式架构的意义重大。当专用模型可以按需编译并在本地运行时，将数据发送到云端 API 的理由进一步减弱。原本需要前沿模型 API 调用的合规检查，现在在本地设备上运行。原本花费 0.01 美元的安全验证 API 调用，在初始编译之后不再有任何增量成本。原本依赖互联网连接的政策执行，现在可以在隔离网络中工作。

多个组织在独立地向这一方向推进：提供模型蒸馏即服务的微调公司、构建神经程序编译器-解释器架构的研究团队、构建完全在本地硬件上运行的多视角推理引擎的初创公司。这种趋同并非协调的结果，而是结构性的必然。将每次推理请求都发送到云端 API 的经济学在规模化时不可持续，工程界正在从各个方向同时解决这个问题。

网状网络

如果每个组织都运行自己的 AI 算力，自然而然的问题是：你失去了什么？云服务商提供规模、冗余和托管服务。自己运行硬件意味着自己管理硬件。桌子底下放一台服务器的独立从业者是自主的，但也是脆弱的。如果机器坏了，AI 能力也随之消失。

答案是网状网络：数千个自主节点通过加密隧道相连，每个节点运行与其能力和管辖权相匹配的工作负载。没有中心数据通路，没有单点故障，没有供应商可以单方面撤销访问权或涨价。

网状模型并不新颖。它就是互联网自身的架构。互联网被设计为分布式网络，是因为军方需要一种不会因摧毁单个节点而瘫痪的通信基础设施。数据包绕过损坏点路由。没有中央服务器控制网络。没有单一故障能使系统崩溃。这一设计原则（通过分布实现韧性）对 AI 算力的适用性与对数据包交换的适用性完全相同。

在网状网络中，每个节点都是自主的。它运行在所属组织拥有的硬件上，数据留在本地，工作负载在自身治理规则下执行。组织自行决定运行什么模型、处理什么数据、允许什么外部连接。没有外部实体可以强制访问、改变定价或修改服务条款。

但自主不等于孤立。网状网络中的节点可以协作。拥有多余算力的组织可以接受其他组织的工作负载，在定义好的条件下、按定义好的治理规则、并有完整的问责追踪。一家律所在工作时段处理合同，夜间可以将闲置算力提供给运行诊断工作负载的医院。网状网络处理路由、计费和数据隔离。组织之间通过协议而非信任进行交互。

网状拓扑具有内在的韧性。如果一个节点离线，工作负载重新分配到网络中的其他节点。如果整个地理区域变暗（电网故障、自然灾害），其他区域的节点继续运行。任何单一故障的影响半径与故障节点的规模成正比，而按设计，节点是小型的。与 Stargate 模式相比（一个设施的故障可以同时导致数百兆瓦的算力离线），差别是显而易见的。

网状网络还解决了管辖权问题。加拿大数据留在加拿大节点上，欧洲数据留在欧洲节点上。不是因为云服务商的合同承诺，而是因为数据在物理上从未离开该管辖区域。网状网络以架构而非合同的方式执行数据主权。这对于每一个将 AI 视为关键基础设施的国家都至关重要，而越来越多的国家正是如此。

市场即生态系统

网状网络创造了硬件基底，市场创造了运行在其上的经济体。

想想 App Store 对移动计算做了什么。在 App Store 之前，为手机开发软件需要与运营商签约、获得手机厂商的批准、通过一个攫取大部分价值的封闭花园进行分发。App Store 没有发明移动软件，它让分发变得普遍，让数百万创作者能够参与。赫尔辛基的一个少年可以开发一款应用，一夜之间分发到全球每一部 iPhone 上。

工作流市场为专业知识做的是同样的事情。

一位处理过五千份 TN 签证申请的移民律师知道语言模型不知道的东西：特定入境口岸的裁判官看重哪些辅助材料、支持信中哪些措辞会引发额外审查、哪些资质可以干净利落地对应 NAFTA 职业代码、哪些需要创造性解读。这些知识是实战积累的，花了数年才获得，存在于律师的脑海中、档案柜里、以及律师十年来不断精炼的一套模板中。

工作流市场让这位律师将这些知识编码为可执行的管线。文档接收、职业代码资格筛查、支持信分析、申请组装、表格生成、三个检查点的人工审核、申报文件包生成。管线没有取代律师的专业知识，它就是律师的专业知识，以可执行的形式被捕获。

律师发布了这个工作流。温哥华的一家移民事务所发现它，部署在自己的本地硬件上，通过它处理 TN 签证申请。工作流负责模式匹配工作，温哥华事务所的律师负责判断决策。原始律师从每次执行中获得费用。这是来自专业知识的被动收入，否则这些知识将局限于她能亲自服务的客户。

将这一模式扩展到每一个涉及重复性、判断密集型工作的职业。会计师的 SR&ED 申报工作流、医院的分诊协议、采购官的供应商评估管线、HR 部门的招聘工作流、合规官的监管筛查流程。每一个都捕获了花费数年才积累的领域专长。每一个都运行在部署者控制下的自主基础设施上。每一个都通过市场为创建者带来收入。

这就是工作的 App Store。只不过这些应用不是玩游戏或编辑照片，而是将人类专长编码为可执行流程。而那些”手机”不是消费设备，而是运行在办公室、医院、政府大楼和服务器间里的自主计算节点。市场是专业知识突破个体从业者、地理市场和一天中有限时间的方式。

经济结构强化了分布式模式。每次工作流执行都发生在本地硬件上。市场处理发现、分发和支付。工作流创建者获得执行费用的 70-80%，基础设施层获得 20-30%。没有中央服务器处理数据，没有云服务商看到文件。经济流通过协议，而非通过数据中心。

规模化的 Agent 经济

将视线投向十年之后。推理硬件无处不在。网状网络连接数百万个自主节点。市场分发数十万个专用工作流。经济将呈现什么面貌？

当数百万个 Agent 在数千个组织之间进行交易时，问责基础设施就成为经济本身的底层织物。不是一个产品的功能，不是一个合规附件，而是 Agent 商业活动运行其上的根本基底。

类比金融基础设施。SWIFT 不处理支付：它提供银行间通信支付的消息协议。SWIFT 不持有资金，不决定谁能交易。它提供的标准使两百个国家的一万一千家金融机构之间的交易成为可能。没有 SWIFT，国际银行业务将需要每对银行之间的双边协议。有了 SWIFT，任何银行遵循协议即可与任何其他银行交易。

问责协议为 Agent 交易服务相同的功能。当多伦多的一个法律工作流调用蒙特利尔的一个翻译 Agent，后者又调用渥太华的一个文档分析 Agent，问责信封随执行一起流转。每个 Agent 记录自己的成本、溯源和数据治理合规情况。信封在整条链上聚合。最终，发起工作流的客户获得一份完整记录：做了什么、由哪些 Agent 完成、花费多少、使用了什么数据、遵循了什么治理规则。

这个类比还可以延伸到 DNS，即域名系统，将人类可读的网址翻译成机器可读的 IP 地址。DNS 是隐形基础设施。没有人在输入 URL 时想到 DNS。但没有 DNS，互联网就无法运转。它是那个使一切成为可能的薄薄一层。

问责基础设施就是 Agent 经济的 DNS。当它正常运作时，没有人注意到它。当它不存在时，什么都无法运转，或者更准确地说，什么都无法以严肃应用所要求的可靠性和可信度运转。Agent 可以在没有问责的情况下交易，只是无法以满足监管者、保险公司、审计师和客户的方式交易。这意味着它们无法在价值最大的行业中交易：医疗、金融、法律、政府、国防、教育。

规模化的 Agent 经济还会产生没有任何单一节点能控制的涌现行为。声誉分数从数百万笔交易中累积。一个在五万次执行中保持 98% 自动批准率和 0.5% 错误率的工作流，拥有任何营销宣传都无法匹敌的业绩记录。信任层成为 Agent 的征信机构：不是某人给出的评级，而是从观察到的表现中计算出的统计现实。买家可以基于精算数据而非宣传材料来评估工作流。

定价均衡自然浮现。如果一个 SR&ED 申报工作流标价 300 美元，而竞争者发布了一个质量指标相当的版本标价 200 美元，市场就会调整。如果更便宜的工作流错误率更高，质量指标会揭示这一点。市场为从未有过透明定价的专业服务创造了价格发现机制，因为这些工作一直是定制的、不透明的、基于服务者声誉而非成果可衡量质量来定价的。

主权问题

分布式架构不仅关乎韧性和经济学，更关乎谁来掌控人类历史上最强大的技术。

今天，AI 供应链的集中程度足以令任何关注关键基础设施的人警觉。NVIDIA 设计芯片，台积电制造芯片。少数几家云服务商（AWS、Azure、GCP）运营数据中心。少数几家公司（OpenAI、Anthropic、Google、Meta）训练前沿模型。这条链上任何一个环节的中断（出口管制、贸易战、自然灾害、企业决策）都会在整个经济中产生连锁反应。

美国《云法案》(CLOUD Act) 是依赖性的明证。美国执法机构可以强制任何美国公司交出其服务器上存储的数据，无论数据物理上位于何处。所有在美国云基础设施上运行 AI 工作负载的组织都受制于这一权力。欧盟认识到了这个问题，创建了数据主权要求。加拿大也认识到了，正在制定主权算力战略。但认识到问题并不等于解决了问题。

解决方案是架构性的。当推理运行在组织拥有的硬件上，位于组织控制的建筑里，受制于组织所在的管辖区域，主权问题就由物理定律而非合同来回答。再高明的法律手段也无法强制访问一台不连接你网络的服务器。分布使主权成为物理现实，而非法律抽象。

这在不同场景中意味着不同的事情。对于处理事件报告的加拿大警察局，数据主权意味着遵守加拿大隐私法。对于处理患者病历的欧洲医院，意味着无需跨境数据传输机制即可实现 GDPR 合规。对于处理机密工作负载的国防承包商，意味着没有任何外部网络连接的隔离网算力。对于处理发票的小企业，意味着一种简单的安心：他们的财务数据不在别人的服务器上。

分布式架构以相同的底层结构服务所有这些场景。自主节点、加密隧道、基于协议的协调、本地数据、本地算力、本地治理。差异在于配置，而非架构。

“是否”之问

不论通用人工智能是在十年后、二十年后到来，还是永远不会到来，谁来做工作的转变已经在发生。语言模型处理合同已经比律师快，语音转录起草报告已经比警员打字快，工作流自动化处理发票已经比数据录入员快。这些不是未来的能力，而是当下的能力，只是基础设施尚不充分。

问题不在于是否要为 Agent 承担大部分生产性工作的世界做好准备。问题在于当这一转变加速时，基础设施是否已经就绪。而基础设施的形态（集中还是分布、可问责还是不透明、自有还是租赁）将决定谁从这场转变中受益，谁被动承受。

集中式架构集中了控制权。拥有数据中心的组织设定规则。他们决定什么被允许、什么定价多少、谁能获得访问权。他们攫取算力成本与智能售价之间的利润。他们成为 Agent 经济的地主，其他所有人则支付租金。

分布式架构分散了控制权。每个组织拥有自己的算力。每个节点运行自己的治理规则。协议层确保互操作性，无需以信任为前提。市场层确保分发，无需以集中化为代价。问责层确保透明，无需依赖中央权威。

这两个选项并不对等。一个以前所未有的方式集中权力：掌控为整个经济执行认知工作的机器。另一个将权力分配给使用它的组织和社区。

基础设施一定会被建成。某个人一定会建成它。问题在于它是否会被有意设计为一个连贯的栈（问责、算力、交换、信任、执行、身份、市场），还是被东拼西凑为互不兼容的补丁，各自服务不同供应商的利益，没有一个服务公共利益。

这个问题不是反问。它是这个十年的设计命题。

下一篇：为缺失的拼图命名

为缺失的拼图命名

本书涵盖了广阔的议题。在抵达结论之前，值得用片刻回望整个论证的全貌。

世界已经改变。AI 不是把工作挪来挪去，而是替代了执行者。结构性转变正在进行中，不是在研究实验室里，而是在生产系统中。那些较早理解这一点的组织，已经与未曾理解的组织走上了不同的道路。

基础设施中存在一道空白。Agent 在没有收据、没有溯源、没有治理边界的情况下进行交易。每一次此前的经济革命都产生了相应的问责层（商业有了复式记账法，公司制有了审计标准，互联网有了 HTTPS），而 Agent 经济的问责层尚未出现。这道空白不是一个缺失的功能，而是一个缺失的地基。

历史昭示了走向。每当一种新形态的经济活动超前于其问责基础设施，同样的序列就会上演：危机、应急、标准化。问责层总会到来，并且总是比它被建来治理的那些具体技术更为持久。问题从来不是它是否会被建成，而是它是被有意设计的，还是在损害已成之后才被亡羊补牢地摸索出来。

完整的栈有着特定的形态。它不是一个单一产品，而是一个分层架构，每一层解决一个独立问题，并为其上层奠定基础。

所需的转型是真实的，也是艰难的。它们横跨能源、教育、劳动力、组织和地理。没有一项会自动发生。所有这些转型现在都在发生，无论有没有有意识的设计。

而这一切所开启的未来（前面章节中所描述的）是具体的、扎根现实的。不是技术解决一切的乌托邦愿景，而是一幅行业重组、工作转型、基础设施分布化的具象图景。同样的工作，以不同的方式完成。同样的专业知识，以规模化方式部署。同样的问责，由架构而非侥幸来执行。

那么：具体而言，使这一切成为可能的基础设施是什么？

七层

Agent 经济的完整问责基础设施包含七层。每一层解决一个独立问题，每一层建立在下一层之上。它们共同构成一个连贯的栈。

问责 (Accountability)。发生了什么。每一次 Agent 操作都产生一张收据：一份结构化记录，记载做了什么、花了多少、数据从何而来、适用了什么治理规则。这是基础层。没有它，上面的一切都无法审计。

算力 (Compute)。资源分配。Agent 需要硬件来运行。算力层管理工作节点的配置、预算执行和资源路由。它将分布式硬件整合为统一的基底。

交换 (Exchange)。各方之间的结算。当 Agent 跨越组织边界进行交易时，价值必须被核算和结算。交换层提供协议原生的记账单位和多币种结算。

信任 (Trust)。源自历史的声誉。信任层将数百万笔交易的性能数据聚合为统计画像：不是评审者给出的评级，而是从观察到的行为中计算出的精算记录。Agent 的征信机构。

执行 (Enforcement)。运行时安全裁决。执行层根据定义的策略评估 Agent 行为，并实时产出裁决：放行、标记或阻止。检测、判断和行动作为一个持续过程，而非周期性审计。

代理 (Agency)。身份、授权与同意。代理层回答每笔交易都需要回答的问题：这个 Agent 是谁？谁授权它行动？它有什么权限？处理的数据受什么同意约束？

市场 (Marketplace)。Agent 间商业。市场层为领域专家发布、组织消费的工作流提供发现、分发、定价和结算。这是专业知识成为可交易资产的经济层。

七层。七个问题。每一层都不可或缺，每一层单独都不够。

名称

读出每一层的首字母。

Accountability. Compute. Exchange. Trust. Enforcement. Agency. Marketplace.

A. C. E. T. E. A. M.

这个名称不是倒推的缩写。它就是方案本身。每个字母是一个协议层。合在一起，它们构成 Agent 经济的完整问责基础设施。

这不是巧妙命名的偶然产物。这些层是通过从第一性原理推导问题而识别出来的（Agent 经济需要什么才能以人类经济视为理所当然的那种问责水平运转？），而名称从答案中自然浮现。七个独立需求，每一个不可化约，每一个建立在其他之上。它们恰好拼出一个词，是设计的结果，而非设计的起因。

趋同

七股独立的力量正从不同方向汇聚于这一基础设施，彼此之间毫无协调。

监管者在向它趋同，因为欧盟《AI 法案》、NIST AI 风险管理框架以及加拿大正在出台的立法都要求 AI 系统具备审计轨迹、透明度和问责性。他们不关心协议层，他们关心合规。但合规需要基础设施。

经济学家在向它趋同，因为组织需要知道其 AI 系统的成本，而且要达到专业服务历来追踪的颗粒度：按客户、按事项、按任务。CFO 不会接受无法归因到业务活动的月度汇总账单。成本归因需要基础设施。

安全研究者在向它趋同，因为对齐与安全不仅是模型的属性，更是模型所运行的系统的属性。运行时执行、安全裁决和策略评估需要基础设施。

法院在向它趋同，因为责任认定需要归因。当一个 AI 系统造成损害时，”谁负责？”这个问题要求有一份证据记录，记载发生了什么、哪些 Agent 参与了、使用了什么数据、做出了什么决定。责任归因需要基础设施。

政府在向它趋同，因为主权需要控制，控制需要本地的、可审计的算力。依赖外国 AI 基础设施来执行关键功能的国家面临着任何贸易协定都无法完全化解的风险。主权算力需要基础设施。

企业在向它趋同，因为风险管理需要治理边界。CISO 需要知道数据流向何处、谁在访问、每个组织边界上发生了什么。数据治理需要基础设施。

气候与可持续发展倡导者在向它趋同，因为碳问责需要知道有效产出的能源成本，而非仅仅是数据中心的总体能耗。ESG 投资者需要每单位有效产出的能耗指标。监管机构正开始要求计算密集型运营的环境影响报告。碳问责需要基础设施。

七股力量。毫无协调。全部抵达同一终点。基础设施一定会被建成，因为这七股力量中的每一股，各自出于各自的理由，都在独立地要求它。问题不是是否，而是最终成果是一个被设计为协同运作的连贯栈，还是一堆互不兼容的补丁的堆砌，每一个解决一个问题的同时制造三个新问题。

基础设施的历史表明，连贯的设计最终会胜出，但并非总是在第一次尝试时。互联网经历了数十年的专有网络，才有了 TCP/IP 成为标准。金融市场经历了数个世纪的即兴记账，才有了复式记账法的普遍采用。Agent 的问责基础设施将经历类似的时期：各种竞争方案、局部解决方案和互不兼容的实现并存。有些组织会构建定制的问责工具，有些会采用供应商特定的合规功能，有些会忽略问题、寄望于船到桥头自然直。

定制工具与协议之间的区别，就是私家道路与公共高速公路之间的区别。私家道路服务一个庄园，高速公路连接一个国家。仅在单一供应商生态系统内有效的问责基础设施，解决的是单个组织的问题。一个跨越组织边界、跨越 Agent 平台、跨越管辖区域的协议，解决的是结构性问题。而这个结构性问题，正是七股力量共同趋向的目标。

长远视角

最强大的基础设施是那种变得隐形的基础设施。TCP/IP 承载着地球上每一条互联网连接，但没有人想到它。复式记账法构建了有史以来每一份财务报表的结构，但没有人注意到它。HTTPS 加密着每一笔网络交易，用户只看到一个锁形图标。

Agent 经济的问责基础设施将走上同样的道路。当它运转良好时，它将是隐形的。Agent 进行交易，成本被追踪，溯源被维护，治理被执行，而没有人会想到使这一切成为可能的协议。他们想的是合同审阅、事件报告、采购评估、发票管线。基础设施将是底层之物：使可信赖的 Agent 工作成为可能的基底。

这就是基础性技术的行为方式。它们消融于背景之中，恰恰因为它们有效。它们越是不可或缺，就越是不被看见。管道从来不是故事的主角。水才是。

规则。收据。关于发生了什么、花了多少的记录。防止数据流向不该去的地方的边界。从数百万笔透明交易中积累的信任。让专业知识超越个体而规模化的市场。一个可问责的 Agent 经济赖以存在的地基。

这就是 ACETEAM。不是一个产品，不是一家公司，而是一个协议栈。七层，每一层不可或缺，每一层建立在前一层之上。自主工作时代的完整问责基础设施。

建造这一切的团队，不会是构建 Agent 的人，不会是训练模型的人，不会是设计芯片的人。他们将建造的，是 Agent 生存其中的文明。

返回目录

致谢

一本书的写作从来不是一个人的事。

首先感谢我的妻子Sophie。创业是一条漫长而不确定的路，而她始终在那里。感谢我的父母Bin和Helen，他们的支持和牺牲是一切的起点。感谢JJ，你是爸爸最大的动力。

Tej Sandhu在一切尚不明朗时就看到了潜力。他在麦克马斯特大学打开的大门改变了公司的轨迹，也在每一步中挑战着我们的每一个假设。Jalal和Nitin在圣何塞州立大学带来了学术的严谨，以及一间让这些想法首次经受学生检验的课堂。Dom Cocco和Rino Bellavia在Forge项目中提出了那些迫使我们精确化的财务问题。那种精确，来自毕生从事审计工作的积淀。

Pascal的研究团队在信任与置信度校准方面的基础性工作，为本书中的技术论证提供了学术支撑。

三个警察局的警官们（在此不具名，但绝不会被遗忘）用大量时间向我们解释他们的组织如何实际处理数据，哪里出了问题，以及为什么采购的供应商方案总是不尽如人意。那些对话塑造了第二章。

在一个国防项目中选择了我们而非行业巨头的政府评审团队，给了创业公司最宝贵的礼物：关于我们的提案中什么有效、什么差点失败的坦诚反馈。

Justin和Nathan在我写这本书的同时，构建了书中所描述的系统。从理论到生产之间的鸿沟是大多数想法夭折之处。他们跨越了这道鸿沟。

感谢Hamilton、圣何塞和滑铁卢各地的导师、顾问、合作者和批评者们：你们坐下来认真听取了每一次pitch、提出了尖锐的问题、告诉我哪里想错了。这本书因你们而更好。其中的错误仍然是我的。

术语表

A2A（Agent-to-Agent，智能体间协议）：由Google推出的开放协议，用于跨平台和跨组织边界的AI智能体之间的通信与任务委派。

问责层（Accountability Layer）：记录、验证和执行经济活动规则的基础设施。历史先例包括商业领域的复式记账法、公司治理的审计标准、以及互联网的HTTPS协议。本书论证智能体经济需要属于自己的问责层。

问责空白（Accountability Void）：当前缺乏标准化基础设施来跟踪、验证和治理跨组织边界的智能体间交易。这是本书所识别的核心问题。

ACETEAM技术栈：一个七层协议架构，用于智能体问责：Accountability（问责）、Compute（计算）、Exchange（交换）、Trust（信任）、Enforcement（执行）、Agency（代理）、Marketplace（市场）。每一层解决一个独特的问题，并为其上层提供支撑。

智能体经济（Agent Economy）：一种经济系统，其中自主软件智能体代表个人和组织执行工作、进行交易和做出决策，区别于人类将软件作为工具使用。

品类缺口（Category Gap）：一种结构性缺失：不是现有产品类别中缺少某个功能，而是整个基础设施类别的缺失。如同需要的不是更好的汽车，而是道路本身。

执行信封（Execution Envelope）：定义智能体被允许做什么的边界：可以访问什么数据、可以采取什么行动、可以花费多少、以及哪些决策需要人类批准。

MCP（Model Context Protocol，模型上下文协议）：由Anthropic推出的开放协议，用于以标准化方式将AI模型连接到外部工具、数据源和服务。

协议（Protocol）：一种开放的、可互操作的标准，使不同系统能够无视供应商差异地协同工作。与平台（由单一实体控制的专有系统）相对。TCP/IP、HTTPS和SMTP是协议；AWS、Salesforce和Palantir是平台。

七大力量（Seven Forces）：推动智能体问责基础设施需求的七股独立压力：监管、经济、安全、法律、环境、地缘政治和企业。本书的核心论点之一是：它们之间并无协调，却都需要同样的解决方案。

主权计算（Sovereign Compute）：由使用它的组织自行拥有、运营和控制的AI计算基础设施，区别于向云服务商租用。主权意味着对数据驻留、模型选择、成本结构和治理的控制。

信任基础设施（Trust Infrastructure）：使自主智能体之间能够进行经过验证的、可审计的、可问责的交互的系统和协议。使可信赖的智能体工作成为可能的底层基座。

关于作者

孙派是AceTeam.ai的创始人。在为智能体经济构建问责基础设施之前，他曾在苹果和亚马逊担任工程师。他在加利福尼亚州圣何塞和安大略省Hamilton之间往返工作生活。这是他的第一本书。