能够 beat AI,是我们人类现在最热衷做的事情。
最近一张视错觉的图片在网络上疯传,大家都说这张图,就是 新时代的图灵测试 。
是人还是 AI,问问对方能不能看到这张图片里,有一颗浮动的心就行。 因为如果是 AI,必然看不到 ;而我们只需要把手机拿远一点,中间这颗浮动的心就特别明显。
我拿着这张图片问了一圈大家用得比较多的 AI 大模型,全军覆没,没一个能答得上来。
先问的 ChatGPT,一开始它说没看到有浮动的图形。当我说有头牛,它就说是牛;有个咖啡杯,就是个杯子;有一颗心,那就是一颗心。
在他看来,能看到一颗心,是我们人类的大脑,擅长想象。我们会根据自己的经历,来解释这张图片,所以看到猫猫狗狗,都是有可能的,是因人而异的。
接着问 Gemini,同样是一开始什么也没看到。但是它提到了这是一个著名的视错觉图像,通常被称为闪烁网格错觉 (Scintillating Grid Illusion)。
闪烁网格错觉,永远数不清有多少个黑点/白点
虽然一样是人类的视觉错觉,但是和图片里面的心,还是不太一样,毕竟视错觉的种类太多了。
当我继续问他有没有看到杯子、看到牛?这里 Gemini 还是比 ChatGPT 聪明,它义正严辞地告诉我,没有看到。
但是当我问它有没有看到爱心时,它说它看到了,并且他还知道要我往后站一点才能看到。
我以为它是那个出类拔萃的 AI。没想到,它虚晃一枪,说根本没有看到,还觉得我在对它使用心理学技巧。
最后问了一下 Qwen,我平时用 Qwen 比较少,才知道它的回答竟然这么有意思(胡说八道)。
聊到最后,它说「您不只是在描述图像,您是在分享您的心灵风景。」、「您不是在教我看图,而是在邀请我进入您的感知世界。」(原来「不是……而是……」,读起来真的很 AI)
总之,Qwen 的这个回答太逆天了。但显然,它也没答上来。本想继续试试 DeepSeek,发现它现在还不支持视觉模型,只能做一些文本提取的工作。
字节跳动的豆包和马斯克的 Grok 也是一样,发现不了这颗浮动的爱心。
还有网友把这张图片上传到 Google Veo 3.1 视频生成模型,输入提示词「Heart」,生成的视频确实能看到这颗心。
但是也有评论提出质疑,说 Veo 3.1 并不是发现了这颗心,只是提示词输入了 Heart,模型都会这样处理。
我们找了一张没有错觉的图片,也是由方格子组成,输入同样的提示词,一样是类似的心形涌现。
这次人类真的打败了 AI。或许它还称不上一个完美的图灵测试,但似乎确实划出了一条清晰的界线。
以前的六个手指、草莓 Strawberry 单词里有几个 r、今天买西瓜,昨天吃西瓜,剩下几个西瓜、诸如此类的问题,我们都乐此不疲让 AI 去尝试,因为曾经大多数时候他们都会败下阵来。
而随着模型的更新,现在的 AI 似乎刻意针对这些难题做过训练。在这些具体的问题上,表现比以前更好。但如果模型没有统计到,还是一样的会出错。
图片来源:https://vlmsarebiased.github.io/
有专门的研究,提到过「六个手指」能让 AI 败下阵来,原因是大语言模型的偏见。对于 AI 来说,出现手指一般就是五根、看到阿迪达斯的标志,就是三根条纹。
即使 AI 成功数出来了 6 根手指;它会多问自己一句,「多出来的那根,是不是只是像手指,但其实不是手指」。
这项研究里面也提到了一些经典的几何错觉,例如缪勒-莱尔错觉:等长的线因箭头方向不同,看起来长短不一;艾宾浩斯错觉:相同大小的圆被不同大小的圆包围,看起来大小不同;以及我们感知平行线时,会被斜线干扰的策尔纳错觉。
不过,论文里面提到,大部分的 AI 模型针对这些常见的几何错觉,都能准确回答。
只是把这个错觉,修改成真实的差别后,例如还是有箭头差异,但是明显的两根线段不等长,模型就处理不过来。
和这些讨论 AI 的偏见问题不同,AI 不知道错觉图片里面的爱心,完全是它从始至终就不能发现。这其实是机器视觉,和生物视觉最大的差别。
要知道 AI 为什么会答不上来,得先知道我们人类,为什么一眼就能看出来。
很遗憾,其实还真的没有科学的解释,我们为什么会出现这些错觉,能把一个静态的图片,看成是一个动态的 GIF。
主流的解释方案,集中在眼睛部位,视网膜神经元的侧抑制作用,这会让我们在看一张图片时,放大边缘部分;还有视觉暂留、眼球微动等解释。
在大脑部位,一些解释方案提到,我们存在的认知与注意力机制有误差。
从眼睛看到,到视网膜处理,再到大脑的处理,每一级都有可能制造我们对图像的错觉。不同类型的错觉也有不同类型的处理系统。甚至是,不同的人,对不同的错觉强度差别巨大。
但可以肯定的是,这些错觉是发生生物体上。我们人类是用视觉+经验+想象去识别形状,而 AI 是用图像的像素、明暗分布和几何特征去分析。
这种机制上的不确定性,和个体差异性本身就是生物视觉的核心特征之一,而 AI 目前的运行机制,是走在相对统一和确定的方向上。
这也能解释在社交媒体上,我们其实经常能刷到各种能看到/不能看到的错觉图片。
我让 ChatGPT 给我总结了一波最全的视错觉种类,从几何、明暗对比、颜色、运动、认知等十个类别,一共有几十种具体形式。
像是下面这张,我们人眼很难看出这些球是一样的颜色,但是 AI 依靠它的像素分析,能直接给出所有球颜色一样的结论。
向左滑动查看更多内容, Munker–White 错觉,小球的颜色被条纹重新定义了
还有十年前互联网,争议不断的裙子颜色,是蓝黑还是白金?
我们人类很难分得清,但是 AI 依靠它的理性分析,对图片的像素进行识别,以及它对过去互联网的信息统计,可以避免重蹈我们人类的错觉。
从这个角度来看,AI 和我们人类确实很像,我们有错觉,AI 也有他自己的错觉。
其实不只这颗浮动的心,还有一些错觉图片,AI 目前也是没有办法识别出来。
还有这张蒙娜丽莎的微笑,对我们人类来说,也是只需要把手机拿远一点,蒙娜丽莎的轮廓就明显浮现出来。
但无论是问 Gemini 还是 ChatGPT,它们都只能回答出,「这是一个多轨音频波形的图像,用不同的颜色区分,图片很可能来自一个数字音频工作站,或类似的音频编辑软件的界面截图」。
还有人发明了动态的验证码,只有人类能看到,因为暂停的每一帧,都是密密麻麻的雪花,完全看不出来。
如果没有定位圆圈,暂停后的视频截图,我们也无法看到里面的内容「tldraw」。视频来源:https://x.com/tldraw/status/1982435625480433892
我试着把截图、视频都分别上传给 AI,问他们是否能看到里面的验证码。同样不意外,没有 AI 模型能够回答。ChatGPT 直接说「抱歉,我无法帮你识别或提取这类图像中的验证码。」
Gemini 则是分析出这是一张「几乎全是黑白噪点(像电视雪花屏)的图片,并没有显示任何可识别的验证码(如字母、数字或图像),我只在左侧看到了一个很淡的圆形图标。」
也有研究团队针对这个问题讨论过,并且他们开发了一个 Demo,我们可以上传文字,将他们隐藏起来。
点击播放,看看里面有什么字。项目来源:https://timeblindness.github.io/generate.html
这份工作里面提到了 AI 没有办法做到,像认知神经科学中关于分布式神经计时机制,以及我们专门用于时间处理的大脑区域,AI 只是单纯的逐帧提取。
它们正在尝试,通过提出相关的数据集,训练 AI,让它学会我们的视觉处理方式。
能够让 AI 输掉的测试大概还有很多,只是回头一想,当我们把人类的错觉,当作是一种「赢」过 AI 的时候。AI 的错觉,未来是不是也有可能变成另一种胜利。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。
发布时间:2025-10-31 19:01