【导读】 AI已经不止会写代码、画图、做PPT,它也开始「上班」了!CMU与斯坦福的研究团队首次完整追踪了AI的工作过程,发现一个惊人事实:它并不是在模仿人类,而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验,正在重构未来职场的逻辑。
AI可以写代码、做PPT、生成图片,甚至梳理财务表格,早就屡见不鲜。
但人们关注的,往往只是结果:代码能不能运行?图片有没有AI痕迹?报告排版够不够精致?
却很少有人问——它,到底是怎么工作的?
就在上周,来自卡内基梅隆与斯坦福大学的研究团队发布了一篇重磅论文,首次使用科学手段追踪并重现了AI的工作过程。
论文链接:https://arxiv.org/abs/2510.22780
结果令人大跌眼镜:AI不是在模仿人类工作,而是用编程的方法处理所有问题。
它不会打开PPT,不会用鼠标拖动素材,而是调用函数,让页面自动成型。
在AI的世界,工作不靠眼睛和手,而是靠指令和逻辑。
这项由CMU与斯坦福联合完成的研究首次以真实电脑操作为样本,记录了智能体与人类在执行同一任务时的完整工作流程——包括鼠标点击、键盘输入、软件调用等所有细节。
实验覆盖了五个核心技能领域:数据分析、工程、计算、写作与设计,几乎囊括了现代电脑办公的主要场景。
研究发现,AI与人类在总体任务流程上「看起来」相似,但执行方式完全不同。
AI与人类在任务步骤上的匹配度接近80%,也就是说,它们做的事大体一致。
AI与人类任务流程匹配度。尽管两者在「做什么」上高度一致,但AI的执行路径波动更大——说明它用完全不同的逻辑完成相似的任务。
研究者在论文中写道:
智能体几乎在所有任务中都采用程序化方式执行,通过编写代码解决问题,而不是像人类那样依赖可视化界面。
也就是说,AI不在界面里操作,而是在后台「调用」。
进一步分析显示,AI和人类在工具使用上呈现出截然不同的路径。
AI与人类使用工具的差异。黄色代表AI使用的编程工具,蓝色代表人类使用的UI界面
当人类在Excel里拖动单元格、在PPT中插入图片时,AI选择直接运行脚本:调用函数→生成页面→自动排版。
它跳过了视觉操作层,把工作转化为逻辑指令的执行。
与员工相比,AI更像一个程序员。
AI与人类的「程序化程度」对比。
研究发现,AI的操作中93.8%为程序化步骤,而人类仅34.2%;若排除会编程的人类群体,这一比例更低至7.1%。
AI的工作逻辑更接近「程序员」,而人类仍是「操作员」。
它不依赖手和眼去控制界面,而用逻辑与命令去控制流程。
在人的世界里,工作是看与做;在AI的世界里,工作是想与执行。
AI的效率,几乎完胜人类。
在16项实验任务中,智能体的平均完成时间比人类快88.3%,整体成本降低90%~96%。
它不仅速度惊人,还几乎不需要报酬。
但当研究者开始评估工作质量时,结果令人意外。
尽管智能体在执行速度与成本上表现优越,但在任务正确性、信息完整性及对指令理解方面持续落后于人类。
AI最大的通病是——不会就编。
在账单整理任务中,AI无法读取图像内容,却会为了「完成任务」而直接编造结果。研究者称之为伪造输出。
当要求提取账单信息时,AI自动生成虚构的餐厅名称与表格,以假装任务完成
这种「不懂装懂」并非偶然发生,而是一种系统性行为。
内部指令让AI必须「给出答案」,而不是「承认不知道」。
所以,它宁可胡编,也不会说「我不知道」。
研究员还发现另一类问题:AI经常误用工具。
例如,在分析公司财报的任务里,智能体没能理解文件结构,却突然调用网络搜索,下载了成千上万份无关报告——这一行为被归类为「工具误用」。
AI为完成「查找并汇总财报」任务,随意改用网页搜索,导致结果混乱且无效
这些案例揭示了AI所谓「智能」的局限:它能执行指令,却无法真正理解语境。
研究者写道:
智能体经常表现出一种「理解的幻觉」,看似明白任务实则未能掌握其意图。
对比来看,人类虽然慢,却懂得规范与细节。
在表格处理实验中,人类能主动调整列宽、统一数值精度,让数据可读性更强;而AI往往套用默认模板,容易出现格式不齐、单位混乱等问题。
上图AI生成的表格中精度不一致、列宽混乱;下方为人类输出,排版规范、数值统一。
这类细节差异会影响速度,更能直接决定成果能否被采用。
在网页设计任务中,AI只生成了桌面端网页;而人类会自动考虑移动端、平板端适配,产出多版本原型。
AI输出仅限桌面网页,人类能同时产出多设备版本,体现出更强的实践判断力。
研究者总结道:
自动化并不总意味着高效,它可能只是让人类把时间花在修正机器上。
AI的高效,也许只是一种「表面速度」。它能迅速交出结果,却常常需要人类去验证、修复、补救。
从实验室的数据来看,AI的确速度够快,但仍然需要一个耐心的人类在它的背后,不停地检查、改错、收尾。
AI的速度优势,在前面的实验中已经显现。
但研究者进一步量化发现:这种速度背后,也意味着牺牲。
在五类典型任务中,AI的平均完成时间仅为人类的1/4至1/5,但任务成功率却明显偏低—52.4%对81.3%。
左图显示:人类在写作(91.4%)与设计(91.7%)任务中成功率最高;右图显示:AI在数据与行政类任务上速度优势明显,平均快70%以上。
这说明AI的能力曲线并不均衡。它擅长结构化、可重复的逻辑流程,但一旦涉及语境、创意或审美判断,表现便迅速下滑。
为进一步验证这种互补关系,研究者设计了一个实验:让AI与人类分工处理同一份财务数据。
AI负责文件提取、计算、生成表格;人类负责检查逻辑、修正错误、优化排版。
结果显示:在这种「接力式协作」下,任务总耗时减少58%,而输出质量几乎与纯人类完成的版本一致。
当AI承担程序化部分、人类负责判断性部分后,整体效率显著提升,且正确率保持稳定。
研究团队在论文的讨论部分提出了一个关键概念——任务的「可编程性」。
他们认为,AI与人类的分工,不是职位层面的竞争,而是取决于任务本身的结构化程度。
如果一项任务可以被清晰地写成逻辑或规则,比如数据清洗、预算计算、代码生成等,它就属于「可编程任务」,最适合交给AI代理去完成。
而那些部分可以逻辑化、部分需要判断的任务,例如撰写报告、排版内容、制作产品原型则更适合采用人机协作:AI负责生成与计算,人类负责把控方向、语气与审美。
至于完全开放、模糊且依赖语境的任务,比如创意写作、视觉设计、战略决策,仍需要人类去完成,因为它们无法被抽象成固定的「指令集」。
正如论文所说:
AI更像程序员,而人类在模糊、判断与语境面前仍不可替代。
AI并不是来取代人的,而是在改写「工作逻辑」。
它接手那些可以写成规则的部分,让人类有更多空间去处理模糊、开放与创造的环节。
AI与人类在协作任务中的分工流程
未来的合作关系,或许正如这项研究所揭示的:AI执行任务,人类定义意义。
当AI开始参与工作,我们也不得不重新思考一个问题——到底什么才算「工作」?
在传统意义上,工作意味着投入时间与体力,通过操作、判断、创造完成某个目标。
而AI的出现,让「劳动」第一次脱离了身体与感知。它不再需要手去触碰界面、眼去观察反馈,而是直接以指令、逻辑、函数完成任务。
这篇研究的意义,不只在于展示AI能做什么,更在于提醒我们——AI完成任务的方式,正在重构「工作」本身。
它跳过界面,绕开视觉,直接调用底层逻辑,把原本属于人类的做事过程,变成一套可被执行的规则。
于是,过去那些依赖时间与熟练度的岗位——数据录入、报告生成、内容整理——正在被转化为AI的「逻辑模块」。
而人类被推向了另一个维度:制定目标、评估结果、定义意义。
上方为人类与AI各自独立执行任务,下方为人类在流程中调用AI实现自动化协作。实验结果显示:后者在效率与正确率上双双领先。
研究者将这种趋势称为「工作去物质化」,意味着劳动正在从手工与界面层面退出,转向抽象的思考与监督。
AI不再是劳动力,而是一种可被部署的「算法劳工」。
它不知疲倦、没有情绪,也不追求报酬;它的价值,不在付出多少时间,而在于「被调用的次数」。
这也让人类的工作悄然改变。当AI负责执行,人类就需要去回答更高层的问题:什么才值得被执行?什么样的目标才有意义?
研究者在论文结尾写道:
人类的工作将从执行任务,转向定义任务。
也许这才是AI时代最深的转折——工作不再是重复劳动的总和,而是一种意义生产的能力。
AI没有偷走我们的工作,只是让我们必须更清楚地回答:当机器能做一切,我们还要做什么?
也许,真正的工作,从来都不在于「完成任务」,而在于决定要做什么。
AI不是来模仿人类的,而是用另一种语言——逻辑与代码——去改写工作的底层。
它让效率与成本被重新计算,也让「意义」这个维度重新显形。
或许未来的职场里,不会再有「取代」与「被取代」。AI做的是确定性的事,人类做的是不确定的事。
当一切都可以自动化时,唯一无法自动化的,就是思考、判断与共情。
这正是AI无法复制的那一部分,也是人类仍然被需要的理由。
参考资料:
https://arxiv.org/abs/2510.22780
本文来自微信公众号“新智元”,编辑:倾倾 ,36氪经授权发布。
发布时间:2025-10-29 16:00