数据治理应该先于人工智能治理吗?它们是一回事吗?它们是互补的吗?

说实话,我们问错了问题。

两者真正的区别不在于哪个团队拥有什么,也不在于你先做哪件事。区别在于一些更根本的问题:你究竟想要管理什么?

一方面,你是在管理已经存在的事物,例如表、记录、管道和文件。你可以查看它们、追踪它们、修复它们。

另一方面,你所管理的事物是由随着时间推移而演变的模型生成的,这些模型对同一个问题会给出不同的答案,并且越来越多地自主做出决策。其中一些模型现在会根据这些决策采取行动。

这不是范围上的差异,而是本质上的差异。一旦你明白了这一点,就再也无法忽视了。

数据治理体系的建立

数据治理是一门成熟的学科,这并非偶然。它能确保您的数据干净、安全、易于访问且合规。它所管理的数据,例如客户记录、交易表和主数据,都具有一个共同的特点:它们早已存在。有人收集、存储并编目了这些数据。您知道输入了什么,也可以验证输出了什么

当出现问题时,您可以追溯其根源,检查模式,应用质量规则(完整性 、 准确性 、 一致性),并得到“是”或“否”的答案。整个流程清晰可见,行为也可预测。

这一点至关重要。如果你的数据架构混乱,其他一切都无从谈起。人工智能会继承数据层已有的所有问题。务必从数据架构入手。永远如此。

但关键在于,数据治理的核心假设是:稳定性。无论今天、明天还是下个季度,输入、管道和输出都必须 一致 。没错,现代数据治理会处理概率数据(模糊匹配、基于机器学习的分类、插补值),但这些只是稳定系统内的有限例外。我们期望系统在一段 时间内保持相同的运行状态。

人工智能的工作原理并非如此。

当你对人工智能进行治理时,究竟会发生什么变化?

GoodData 的一份白皮书综合了企业实施情况和监管分析,直言不讳地指出:“人工智能治理不是数据治理的微小延伸,而是一种根本性的转变。”

为什么?因为人工智能系统打破了传统治理所依赖的三个假设。

首先,人工智能系统并非一成不变。机器学习模型并非像数据库表那样静止不动。它会通过重新训练、反馈循环以及与真实世界数据的交互而不断演进。今天部署的模型,三个月后其行为可能就会发生变化。这并非因为你做了什么改变,而是因为周围的世界发生了变化。美国国家标准与技术研究院 (NIST) 的生成式人工智能概况(AI 600-1,2024 年 7 月)指出了生成式人工智能特有的或加剧的十二项风险,包括捏造、有害偏见或同质化、信息完整性、数据隐私和价值链整合。这些风险都不符合传统的“记录准确或不准确”的质量规则。

其次,人不可能审查每一个决定。传统的管理模式假定流程中的某个环节会有人进行判断。但是,一个每小时处理1万份申请的信用评分模型呢?一个客服人员要处理成千上万次的对话呢?没有人会逐一审查这些。决策是自动化的,数据量巨大,但仍然需要有人为此负责。

第三,质量不再是非此即彼的二元对立。数据治理验证的是可验证的属性。记录是否完整、准确、一致?答案只有“是”或“否”。而人工智能治理则需要管理一些截然不同的东西:置信度阈值、统计指标、业务权衡。例如,一个欺诈检测模型将某笔交易的欺诈概率判定为 73.6%。这个概率可以接受吗?这取决于具体情况、阈值,以及企业愿意为误报和漏报承担多大的损失。这些并非传统意义上的质量属性,而是系统本身固有的判断。

两者真正分歧的地方,是五个维度。

当我从具体的运营层面将数据治理和人工智能治理进行对比时,差距就变得显而易见了。

1.自然界的数据治理默认追求稳定性,即相同的输入,相同的输出,并将例外情况作为边界情况进行管理。而人工智能治理则基于相反的假设:不确定性才是常态。同样的提示,每次运行都可能得到不同的答案。

2.可见性。数据管道是透明的。您可以追踪记录从源头到目的地的整个过程。人工智能模型呢?通常是一个黑匣子。您无法总是解释模型为何做出某个特定决策。对于生成式人工智能而言,其推理过程隐藏在数十亿个参数中,而这些参数是任何人都无法检查的。

3.稳定性。您的数据仓库在季度审计之间不会改变其行为。但人工智能模型会。它们会漂移,会退化。NIST AI RMF正是基于这一现实而构建的,它将人工智能治理定位为一个持续的生命周期过程,而非一次性的合规性检查。这与大多数治理团队习惯的运营模式截然不同。

4.规模。数据管理员可以检查数据集,分析师可以验证报告。但当人工智能系统每秒做出数千个自主决策时,人工审核每个输出结果并不现实。你需要的是自动化监控,而不是人工抽查。

5.起源。这或许是最大的问题。数据治理管理的是已经存在、收集、存储且随时可用的数据。而人工智能治理则必须处理五秒钟前还不存在的数据。生成模型在运行时创建新内容。 大语言 模型(LLM)和智能体每天产生数百万条新记录。如果没有适当的标签,这些合成数据就会泄露回主数据库。如果用这些数据训练未来的模型,就会出现舒迈洛夫等人于2024年7月在《自然》杂志上记录的现象:模型崩溃。人工智能从人工智能学习,导致最终模型不可逆转地退化。幻觉会叠加幻觉。

以下场景可以很好地说明这个问题。一个营销团队使用 大语言 模型(LLM)生成了 10,000 条产品描述。这些描述被存入数据仓库,但没有任何标签表明它们是人工智能生成的。六个月后,另一个团队基于该数据仓库训练模型。新模型将第一个模型的错误当作事实来学习。这是一个数据治理上的失误,任何传统的数据质量规则都无法发现,因为数据看起来一切正常。但它并非真实数据。

智能体人工智能使之更难

然后还有能动浪潮,它包含了刚才我描述的一切,并在此基础上增加了自主性。

当人工智能代理能够规划、执行、跨系统串联操作并部署输出,而无需人类按下“批准”按钮时,你不再是在管理一个模型,而是在管理一个能够自主行动的系统。

麦肯锡发布的《2026年人工智能信任状况》精准地指出了这一区别:企业不能再仅仅关注人工智能系统说错话,还必须应对系统做错事的情况,例如采取非预期行动、滥用工具以及超出适当的安全限制。

规模之大是真实存在的,治理差距也远超大多数高管的想象。OutSystems发布的《2026年人工智能发展现状报告》基于对近1900位全球IT领导者的调查,发现96%的组织已经在某种程度上使用人工智能代理,94%的组织担心人工智能代理的无序扩张,即代理的无序扩散会造成复杂性、技术债务和安全风险。然而,只有12%的组织部署了集中式平台来管理这种扩张。

这与以往的影子IT危机如出一辙,但这次的风险更高。人工智能代理不仅存储和检索数据,它们还会做出决策、执行命令,并在你的系统中采取行动。

它们之间存在联系,但并不相同。

我不想给人留下这是两个互不相干的世界的印象。它们其实有很多共同之处。两者都重视信任。两者都需要明确的所有权和责任。两者都追求质量。两者都关注安全和隐私。一个拥有强大数据治理能力的组织确实拥有先发优势。

但是,我要直言不讳地说,没有健全的数据治理,人工智能治理只是一种幻觉。如果你的数据不可靠,你的模型自然也不可靠。任何针对人工智能的治理措施都无法解决这个问题。

但不要止步于此。因为单靠数据治理无法解决模型漂移、算法偏差、可解释性、欧盟人工智能法案下的风险分类、内容来源或自主决策的问责制等问题。这些都是人工智能治理问题,需要人工智能治理解决方案。这些解决方案应以专为人工智能构建的框架为指导,例如NIST AI RMF 1.0及其 GenAI Profile,或者ISO/IEC 42001——首个人工智能国际管理体系标准,已于 2023 年 12 月发布。

我发现描述这种关系最简洁的方式是:人工智能治理吸收了数据治理,扩展了数据治理,并超越了数据治理。它吸收数据治理,是因为干净的数据仍然是不可或缺的基础。它扩展了数据治理,因为模型、提示、输出和决策也都需要溯源和质量控制。它超越了数据治理,因为现在还需要治理漂移、行为、可解释性和自主行动。而这些在五年前都还不是治理对象。

我从事这行已经超过20年了,涉猎数据架构、商业智能,现在又涉足人工智能领域。我可以告诉你:数据治理有足够的时间发展成一套稳定的体系,其底层技术不会每六个月就发生一次巨变。而人工智能治理却没有这样的机会。

监管时钟不再是抽象的。

以下情况改变了紧迫性。2026年8月2日,欧盟人工智能法案下的大部分规则将生效,并在国家和欧盟层面开始执行。第50条规定的透明度义务也将开始适用。附件三所列高风险人工智能系统的规则也将开始实施,但欧盟委员会的“数字综合方案”提议将这些高风险规则的实施与统一标准的可用性挂钩,因此这部分的具体时间表仍存在变数。通用人工智能模型的规则自2025年8月起已开始实施。成员国层面的处罚机制也已到位。

如果您身处欧盟以外地区,也不要以为这与您无关。该法案具有域外效力:它适用于任何在欧盟境内使用其输出的人工智能系统,无论提供商或部署者位于何处。如果您的模型涉及欧洲用户或数据,那么您就在其管辖范围内。欧盟人工智能法案也是首个大规模实施的具有约束力的重要人工智能法规,因此我以它的时间表作为参考。加拿大的AIDA、科罗拉多州的人工智能法案以及中国的生成式人工智能规则也在同步推进,并提出了类似的治理要求。欧盟的最后期限恰好是最具体的。

如果你的治理项目一直秉持着“到时候再说”的心态,那么时间窗口正在迅速关闭。2026年的治理不再是成熟度讨论,而是合规的最后期限。

你现在可以做的三件事

如果您的组织已经制定了数据治理计划并开始部署人工智能,那么您可以从这里开始。

1.从定期审计转向持续监控。对于在两次审计之间出现偏差的系统而言,季度数据质量审查远远不够。这时,NIST AI RMF 的测量功能就派上了用场。它可以实时跟踪模型性能、偏差指标、输出分布,以及对于智能体而言,它们在系统中采取的行动,而不仅仅是它们产生的输出。单次审计无法发现偏差,而持续测量可以。

2.构建一个能够捕捉行为而非仅仅版本信息的模型和代理注册表。您的数据目录告诉您拥有哪些数据以及数据存储在哪里。但您的 AI 注册表需要更进一步,涵盖预期行为、性能阈值、训练数据来源、部署边界和问责机制。ISO/IEC 42001为您提供了所需的框架,它在九个治理领域包含 38 项控制措施,其可审计性与 ISO 27001 相同。如果您希望您的 AI 治理计划能够经受住外部审计,那么这就是您应该努力达到的标准。仅仅依靠版本号是不够的。

3.在源头为人工智能生成的内容添加标签并强制执行。这不再是最佳实践建议,而是正在成为法律。欧盟《人工智能法案》第50条将于2026年8月生效,该条款要求人工智能生成的内容必须透明。任何由人工智能系统生成的内容在进入任何数据存储之前都需要添加标签。禁止使用未标记的人工智能生成内容进行训练。对于外部分发,C2PA标准(内容凭证)是新兴的来源基准。Adobe、微软、谷歌和主要相机制造商均已采用该标准。这项单一策略可以防止模型崩溃,并使您符合三个月后即将生效的法规。

这是一种思维方式的转变。

真正的问题不在于“哪个先出现”或“它们之间如何重叠”,而在于你的组织是否理解,管理人工智能需要不同的思维方式。

数据治理的前提是稳定,而人工智能治理的前提是变化。

一种是验证已知信息,另一种是监测正在发生的事情。

一个负责在既定检查点检查质量。另一个则时刻监控偏差。

一种方法是追溯血统,另一种方法是预测行为。

一个决定系统是什么,另一个决定系统做什么。

数据治理能够建立人们对信息资产的信任。人工智能治理能够建立人们对系统运行方式的信任。

如果您将人工智能治理视为现有数据治理计划的附加组件,仅仅在目录中添加几个额外字段、将模型所有权分配给数据管理员、沿用相同的审计频率,那么当模型出现偏 差、智能体自行行动或生成的数据破坏您的训练流程时,您就会发现自己毫无准备。或者,更常见的情况是,当监管机构要求您提供您无法提供的证据时,您也会措手不及。

那些在这方面做得好的组织正在构建应对不确定性的治理体系。持续监控、反馈循环、内置可解释性,以及即使无人为干预也能有效运作的问责机制。

在您的组织中,数据治理和人工智能治理之间的界限在哪里?这个界限是否定义明确,还是只是自然而然地演变而来?

我很想听听你的想法。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

发布时间:2026-04-22 18:19