近日在群内看到某企业CIO无奈的吐槽道:“领导说了,现在都是AI时代了,还做什么数据治理,纯粹就是浪费钱,AI就可以搞定!”
看到此时我想很多行业人士都会开启群嘲模式,会嘲笑这位领导不懂技术,但现实却是这句话,正在成为一些企业领导的“新认知”。而源头就是一些自媒体视频在一本正经的胡说八道:大模型能理解自然语言,能处理非结构化数据,能自动“读懂”各种格式——既然AI这么聪明,为什么还要花时间做数据治理?那不是老一套的“笨办法”吗?
这听起来很颠覆,也很诱人。但它背后隐藏着对AI能力、数据本质、企业应用三个层面的深刻误解。如果企业真的按这个逻辑推进数字化,后果可能是灾难性的。
今天老杨就与大家来深入探讨数据治理这件事。
这个时候我们不妨自我反思一下,为什么CIO们为了某个项目建设磨破嘴皮也打动不了领导,反而自媒体几分钟的胡说八道就能打动领导的“芳心”?我们不妨来客观分析一下:
众所周知做传统的数据治理是非常苦逼的脏活累活,需要先定义数据字典,统一字段格式,建立编码规范,然后才能做分析、做集成。周期长、投入大、见效慢,业务部门还得配合做大量“看不到直接价值”的工作。对于急于看到AI效果的领导来说,这种“先修路后跑车”的模式,确实让人等不及。
不可否则AI技术在某些方面确实很优秀,过去需要精确匹配才能识别的信息,现在用自然语言就能检索;过去必须结构化存储才能分析的内容,现在可以直接扔给向量数据库。比如,过去做客户投诉分类,必须先把投诉原因枚举成标准编码;现在直接扔给大模型,它就能自动归类,所以这也是一些自媒体视频看似合理且神奇的卖点。
“先治理后应用”在企业的现实中往往走不通,因为企业耗不起、领导等不起,而“先跑应用、在应用中倒逼治理”反而更可行。领导说“不用先做数据治理”,有可能是在反对那种“为了治理而治理”的形式主义。
所以从以上不难看出某些自媒体是深知领导之痛的,所以在一定程度上是有一些合理成分存在的,但细分析之下你就会发现他们的核心逻辑是错的。
大模型确实能“理解”非标准化的数据,但这种理解是概率性的、不稳定的。但自媒体却刻意放大概率性而忽视不稳定性,只为领导展示一个完美的AI技术。比如在企业场景中,70%的准确率往往等于不可用,必须安排人工复核全部结果。而做数据标准化的价值,恰恰在于消除这种不确定性。当数据的格式、编码、单位都统一后,AI的输出就变得可预测、可验证。
某些自媒体的演示视频,展示的往往是单点应用:把一份合同扔给AI,提取出几个字段。这确实很酷。但现实中企业需要的不是单点应用,而是系统能力。比如一份合同,不仅是在走合同审批流程,同时还需要对接ERP、财务、法务等多个模块与系统。如果每个系统的数据格式都不一样,AI每次都要“重新理解”,每次输出的结果都是不一样的,这个时候听谁的?所以数据标准化的真正价值,是让AI能力可以被复用、被集成、被规模化,而非孤岛化把AI的价值锁死在小场景里。
假如某企业跳过了数据治理,确实可以让第一个AI项目快速上线,这是领导所希望看到的,但代价是什么?那就是当第二个项目要对接第一个项目的数据时,发现格式对不上;当第三个项目要用到前两个项目的数据时,发现字段定义不一致;当需要做跨业务线的数据分析时,发现同一套数据在不同系统里“说的不是同一种语言”。这个时候AI输出的内容全部是所谓的幻觉,即一本正经的胡说八。这个时候企业又要回过头来重新进行数据清洗与治理,浪费大量成本。
从以上我们不难看出当前很多传统企业的领导对AI能力的认知是有很大偏差的,经常把AI当成“魔法”,而不是“工程”。同时也反映出一些领导对数据本质的误解,即在领导的认知里数据就是AI的“原料”,能用就行,不用管质量,因为AI有消化能力,岂不知垃圾进垃圾出,这是最简单的道理。而最大的问题就是某些企业领导战略耐心缺失,追求“速胜”,不愿意“慢工出细活”,做AI项目也是如此,所以自然就会参照自媒体的速成法选择看起来最快的路径,最后我们看到的就是:技术决策被非技术因素主导,专业判断总被短期利益碾压。
老杨在这里要说的是:在AI时代数据治理不是“要不要做”,而是“怎么做”。所以思路很重要,技术在升级迭代,信息部门的工作思路也同样需要升级。
因此在AI项目快速上线的压力下,建议采取“按需治理,快速见效,逐步积累”的数据治理策略,不要再追求“把所有数据都治理好再上AI”,而是“AI需要什么数据,就先治理什么数据”。同时也要打破传统“僵化”的标准制定机制,不要一个数据标准一制定就几年不变,在AI时代,业务变化快,标准也需要持续迭代。所以企业需要建立数据标准的迭代机制,定期根据AI应用的实际反馈进行调整。而最关键的就是企业领导的认知,要把数据治理当作“投资”而非“成本”,别舍不得投入,要知道花在数据治理上的一块钱,可能让后续AI项目的投入产出比提升十倍。
AI确实改变了很多事情,但没有改变一个基本事实:数据是企业的核心资产,而治理是让资产可衡量、可交易、可增值的基础。“有了AI就不用做数据治理”,这是自媒体为了流量的一种手段,流量改变不了企业的管理现实,大模型可以“理解”五花八门的数据格式,但它无法“消除”格式不一致带来的混乱和成本,它可以降低治理的门槛,但不能替代治理的价值。
你的企业在数据治理上是否存在误区?欢迎评论区留言!
本文来自微信公众号“湘江数评”(ID:benpaoshuzi),作者:老杨,36氪经授权发布。
发布时间:2026-04-07 14:39