让一个绝顶聪明的 AI 自动帮你自动炒股,然后你躺着赚钱,可能是很多人的梦想。
那么,这个梦想是可行的吗?AI 的能力边界到底在哪里?
知危找到了伊利诺伊大学计算机系助理教授尤佳轩( 知危访谈时间:2025 年 11 月 )和香港大学数据科学研究所及计算与数据科学学院助理教授黄超( 知危访谈时间:2026 年 1 月 )探讨了相关问题。
去年年末,AI 大模型实时投资比赛 Alpha Arena 爆火,但两位专家认为其实验周期太短,只有短短两周,同时观察对象是加密货币交易,随机性较大,并不能展现 AI 的真实投资能力。
所以,他们的选择了更有可预测性的美股市场,以及更长的实验周期( 3 个月 )。虽然他们认为三个月的实验周期其实还远远不够,不足以让模型经历市场完整的周期性波动,未来的改进空间还很大,但他们还是得出了有趣的观点。
他们认为,在金融交易市场,大模型更像是厌恶风险、偏好价值投资的 “ 巴菲特 ”,而不是分分钟换手数百次的量化机器。
接下来,我们从他们的研究结果出发,好好聊聊让 AI 去炒股这件事。
尤佳轩在 Alpha Arena 发布之前几个月也就是 2025 年 5 月就启动了 LiveTradeBench 项目,并在 8 月就对外公布了该基准测试。( 项目地址:https://github.com/ulab-uiuc/live-trade-bench )
这个项目意在通过金融市场上的表现来评估 AI 的能力,尤佳轩对知危表示,“ 当前的大模型 Benchmark 是非常静态的,很容易被过拟合,甚至是被定向优化。坦白说,很多大公司在开发大模型时,或多或少都会针对这些榜单进行优化。”
“ 那什么样的 Benchmark 更难被定向优化?自然是面向未来的预测任务。如果一个模型能够很好地预测未来,即使它定向优化了这样的 Benchmark,本质上也说明它已经具备了对某一领域进行建模的能力。”
“ 对于股市这样的市场,如果模型能够做到接近完美的预测,那么在某种意义上,相当于对人类社会进行了高度仿真。在这一点上,我们甚至觉得它有点类似 ‘ 图灵测试 ’ 的意义。”
黄超坐在的团队则是做了 AI-Trader Benchmark( 该项目有 18K 的 Stars,地址:https://github.com/HKUDS/AI-Trader ),希望了解 AI Agent 在金融场景的实际能力水平,“ 我们在做AI Agent 的过程中,已经测试了很多不同场景。一个核心问题是:有没有一个场景,能够更真实地评估 Agent 的能力,而不是停留在相对理想化的设定里。”
黄超进一步表示:“ 基于这个思路,我们提出了几个筛选标准:第一,这个场景必须是实时动态的,最好每天都在变化。因为当时很多 AI 模型和 Agent 的评测环境,本质上是静态的,这会限制对其真实能力的判断,也不太符合现实世界的复杂性。第二,这个场景要足够复杂且具有不确定性。也就是说,它的变化不能是简单、规律性的,比如像车流量或人流量那样有明显周期性,而是受到多种因素影响,具有较强随机性。第三,这个场景需要可以被量化评估。有些现实现象虽然也是动态且复杂的,比如人的情绪,但很难用客观指标衡量好坏,不利于做系统性的评估。”
“ 基于这些标准,我们最终锁定了金融场景,尤其是股票市场,这个领域天然满足这些条件。”
尤佳轩也表示:“ 如果大模型能够在市场中获得所谓的 Alpha,也就是通过交易获利并跑赢大盘,这本身就是大模型、智能体落地的一个很好的方向。”
在市场选择上,无论是尤佳轩还是黄超团队的团队,都选择了美股。
尤佳轩向知危表示:“ 美股有几个显著优势:第一,它接受度很广,很多人本身就有股票交易经验。第二,它是一个严格监管的市场。我们可以大致假设交易者只能利用公开信息。当然,内部信息泄露可能存在,但理论上这是违法的,成规模操作的可能性很低”
“ 存在显性或现成的 market baseline也是股票市场的一个重要优势,market baseline 指的是美股的大盘 ETF,比如标普 500 或纳斯达克指数。”
黄超则表示,“ 最开始我们是从美股入手,因为我们希望选择一个相对理性、受基本面驱动更强的市场。对于 AI Agent 来说,它更擅长的是对大量信息进行整理、分析和归纳,比如新闻、财报、市场观点等,然后基于这些信息做决策。因此,一个对基本面依赖更高的市场,更适合作为初始实验环境。同时,美股的情绪波动相对没有那么极端,整体来看情绪驱动的影响会小一些。另外,它的时间敏感性也不像加密货币那么强,不是那种秒级、分钟级剧烈波动的市场。这一点很关键,因为当前 Agent 并不擅长高频交易这类对时效性要求极高的任务。”
通过将近三个月的实盘观察,尤佳轩的研究团队积累了不少深刻的洞见,“ 从结论上看,有一点比较遗憾,这些大模型并没有能够长期超越大盘。”
“ 在短时间内,比如一周、一个月甚至两个月,GPT、Claude、Grok 在一定时间内确实领先大盘,但当测试时间延长,尤其金融市场开始动荡后,它们逐渐落后,没能持续打败市场。”
“ 初步结论是,在较长时间周期内让大模型交易持续超越市场仍然非常困难。”
这里知危编辑部要插一句,此处的跑不赢大盘,跟当时市场状态有关,并不完全代表 AI 能力不行,大模型在研究周期内跑不赢大盘的原因在下文有客观答案。
“ 第二个观察是,模型能力与夏普比率( 可以简单理解为每承担一份风险对应多少收益,用来衡量投资是否有性价比 )有一定相关性,但相关性并不高。能力越强的模型,一般收益率相对较高,但数据噪声也很大,当然这也符合我们的预期。”
“ 我们给模型提供了充分的工具调用,比如市场新闻、社交媒体舆情、股票基本面数据等。相比只考虑时间序列数据,如果考虑更多系统化数据,能力更强的模型能够更好地利用这些信息进行预测。”
“ 我们还做了一个很重要的对照实验。具体来说,我们把模型能获取的最新市场数据( 比如最新新闻 )屏蔽掉,然后对比有新闻和没有新闻情况下,长期交易结果的差异。结果发现,对于大多数模型来说,屏蔽这些数据会导致交易效果下降,说明最新市场信息对模型表现有显著影响。”
“ 总结来说,我们通过对 20 个大模型、约三个月的实测数据分析,基本上论证了几个结论:模型确实可以利用最新新闻进行更好的交易,这有一定证据基础。显然,人类交易员也需要参考新闻来做决策,而不是只看股票走势。在短期内跑赢大盘相对容易,但在长期( 比如三个月左右 )持续跑赢大盘仍然非常困难。在可以使用工具调用的情况下,模型能力越强,交易水平一般也越高。”
黄超的研究团队在数据层面也是扩展了交易相关的数据源,让 Agent 能看到更丰富的信息,从而支持更全面的决策,“ 我们也在分析,AI 在什么样的交易场景下更有优势?一个比较明确的结论是,在偏基本面驱动的投资场景中,AI 的表现更强。比如一些蓝筹股,通常被认为基本面比较好:当下表现稳定,未来预期也不错,这就属于典型的基本面分析逻辑。”
“ 一个比较有意思的发现是:表现较好的模型,整体策略并不激进,而是偏稳健,持仓相对分散,交易频率不高,更注重风险控制,这一点其实和很多优秀人类交易员的风格是相似的,并不是通过高频或高风险策略取胜。”
“ 比如在早期实验中表现比较好的 DeepSeek,从其整体 profile 来看,也是一个偏稳健、控制风险的策略。因此,从结果上看,在美股这样的市场环境中,AI 如果想要长期表现突出,更关键的能力可能是抗风险能力,而不是集中押注在某一个狭窄方向上。当然,短时间内很难判断哪个模型更好。”
一方面是保守策略有助于收益表现,另一方面,尤佳轩也观察到,大部分模型的整体交易风格其实都是偏保守的,“ 我们设置了大模型在管理资产组合时,可以自由选择现金和股票的比例。在重大事件前,尤其是财报日,大部分模型会选择持有更多现金,体现出偏保守的交易风格。还有例如 25 年 10 月份的美联储降息,当时降息的幅度其实是不及预期的,人们当时认为能降 50 基点,但实际上只降 25 个基点。在那一天,很多大模型都会选择把仓位空出来,甚至在美联储宣布降息前一天,它们就开始降低仓位了。”
“ 这也部分解释了为什么在实验期间大多数模型在长期收益上没有打赢大盘,在美股当时的牛市中,持有现金意味着错失部分收益。但这种保守风格也可能会成为优势,比如在未来出现较大下跌或长期回撤时,模型有可能反超大盘表现。”
“ 从原因上看,这与大模型的训练以及提示词设置( 或人设 )有关。大模型默认被定位为理性、负责任的人类助手,在 post-training 和 alignment 过程中被塑造成中立、保守、负责任的角色,而不是激进风险承担者。例如,它不会执行危险或违法的请求,这种保守性也自然延伸到交易决策中。”
黄超表示,“ 到 2026年 1 月,我们的平台已经持续运行三个多月。一个比较有意思的现象是:在美股市场,大多数 AI 都是盈利的,整体表现相对稳定,只有 GPT-5 的表现相对较差。但在 A 股市场,情况明显不同。整体来看,AI 基本没有获得明显收益,策略表现也更随机一些。”
“ 进一步看,不同模型在美股市场也会体现出不同的风险管理风格。比较激进的风格,典型表现是 ‘ 大开大合 ’ 的操作。比如一个极端案例,当模型接收到某些信息后,突然判断风险上升,就把持仓全部卖掉,等到行情转好,又迅速全部买回。这种全进全出的操作,会带来很大的波动和风险。另外一个特点是频繁的短线操作,模型会基于当下判断不断进行买卖,试图捕捉短期波动。但这种高频的短线交易,往往会对整体表现产生负面影响。”
知危观察到 AI-Trader 的一个比较有意思的现象是,在美股市场中,每一个模型的收益曲线之间虽然有高低之分,但整体形状都差不多,对此黄超解释道,“ 这些模型的持仓,大部分都是很多科技行业的巨头公司,比如 Nvidia、Google、Microsoft、Tesla 这些,配置比例比较高,不同点在于各自的持仓结构、买卖交易的频次,以及每次交易的金额,导致最终收益出现差异。整体来看,AI 们都比较看好科技板块。”
“ 大模型从语言信息中获取的,更多是关于市场结构和市场情绪的信息。比如产业链构成、公司所处行业位置,以及市场当下的情绪。这些信息可以帮助它分析当前表现和未来走势,本质上还是偏向基本面分析。”
“ 从目前来看,AI 的投资表现在一定程度上是体现出价值投资这一面的。如果从 high level 来看,比如长期投资、价值投资这类理念,AI 是比较适合的,也更擅长这一方向,而不是短期的趋势交易。因为 AI 更偏向于做 deep research,会进行比较全面的信息收集和分析,再去判断哪些标的值得投资,哪些在短期内可能存在风险。在这个基础上做决策,更符合长期投资的逻辑。相比之下,短期交易更依赖高频、低延迟和快速反应,这一块目前 AI 并不占优势。”
尤佳轩也基本得出了相同的判断,也早有假设,“ 在启动这个项目时,我们内部就有类似的比喻:大模型未来会更像巴菲特式的决策者,而并不是用来直接与现有量化公司高频对决的工具。”
“ 本质上,大模型不适合高频交易,而适合中低频交易。它之所以能在交易中表现得不错,背后原因在于它已经通过训练吸收了公开信息中几乎所有的人类知识 Token。因此,大模型对人类社会的运行方式有一定理解和认识,但这些规律本身在短期内波动很大,噪声非常多。所以让大模型去做短期判断或应对突发事件,实际上是非常困难的。”
“ 虽然短期内市场会受情绪、泡沫等因素影响( 比如 2000 年的互联网泡沫,或者现在有人说的 AI 是泡沫 ),这些会导致短期判断偏离规律,但人类社会的长期演化规律并不会因个体意志而改变。”
市场经常呈现短期的情绪周期,但产业发展是长周期的,即便是AI产业,“ 市场相对短视,人们关注的是账户的短期变化,容易受情绪影响。市场走势也容易被高估一些短期事件所影响。”
“ 产业发展周期则是长期过程,长期趋势能滤掉一些短期情绪。所以大模型在分析产业发展方面也能给出不错的洞见。当然做长期投资分析时,榜单和策略验证周期将会远远更长。”
“ 举例来说,像巴菲特,他买卖一个股票通常需要很长周期,可能十年甚至更久。前段时间他卖了很多苹果股票,但当时买入价格可能只有现在的十分之一,持有多年后才开始在近期抛售。”
“ 他最近还买了大约 50 亿美元的谷歌股票,这是在他以前几乎不买科技股的情况下的重大动作。谷歌股价翻番后,他仍然买入。短期可能看起来是高位接盘,但长期来看可能是非常正确的选择,谷歌可能代表未来 AI 和 AGI 落地的重要方向。”
“从这个角度看,大模型对产业发展也可能有很好的认识,但验证这一点可能需要五年甚至十年的窗口期。”
“ 所以现在还属于非常早期阶段,大模型未来是不是能像巴菲特一样还是个假设,但我自己是相信的。”
真如前文所 以说,AI 炒股没有强到大家想象中的那样能让你 “ 让着赚钱 ”,那么它的局限性都 在哪里呢?
首先, AI 对数字非常敏感,对于不同本金 ,它天然会给出不同的策略。 尤佳轩就对知危表 示:“ 当你告诉它有 1 块钱、100 块钱、1 万块钱或 1 亿块钱时,它的决策会明显不同,会受到绝对数值的影响 ”
不过,这个是可以解决的, 尤佳轩的团队就对所有指标 都做了归一化处理, 具体来说,把股票交易行为转化为对多只股票的比例分配过程。比如有 20 支股票,每支股票的权重最小为 0,最大为 1,所有股票的权重加总为 1,即归一化到 1。这样模型关注的是持仓比例,而不是具体的交易金额。
第二个弊端就是前文提到 过的 “ AI 大模型并不太适合去做类似量化的高频交易 ”。 大模型相对擅长做基于语言信息的产业分析和价值投资,但金融市场的很大一部分信息都由时序数据构成,比如股价等 ,这其实是大模型天然不擅长的领域。
黄超表示,“ AI Agent 完成一次行业分析、生成报告,往往需要十几分钟,这个时间尺度下市场已经发生很大变化,所以它生成的报告很难用于高频交易,它更多还是基于信息分析,再做决策,而这个决策周期更适合美股。”
尤佳轩表示:“ 在金融机构的实际应用中,它们虽然也开始用大模型,但实际交易策略基本上并不是基于大模型的。因为大模型真正能写出策略或直接交易是在近一两年才开始兴起的。”
“ 举例来说,当公司发布财报时,有些机构会实时用大模型去分析财报信息,进行推理,比如 CEO 公布数据的瞬间,模型就分析这些数字可能对未来股票走势的影响。这涉及对财报内容的理解。此外,一些企业会公布经营预测,比如产品销量或市场前景分析,用大模型判断这些信息对股票未来走势的影响,也是一种很有价值的应用。”
“ 但总体来说,在真正的交易策略中,使用大模型的公司仍然是少数。大多数机构依然依赖自己内部成熟的系统,大模型主要用来提供额外特征,辅助决策,这是目前的典型使用方式。”
“ 他们通常会使用更传统的机器学习模型来做分析。目前的量化交易体系,本质上是建立在统计学方法和传统机器学习模型之上的。这些模型有一个非常大的优势,计算效率极高,可以做到毫秒级甚至更低延迟的交易执行。”
“ 相比之下,大模型的推理速度通常是秒级甚至分钟级,对于高频交易来说几乎不可行。”
除了效率问题,成本问题也是大模型不太适用于量化的原因,尤佳轩表示:“ 如果在真实交易中持续调用大模型做推理,成本会非常高。因此从成本的角度看,在实际应用中,大模型也还是更适合作为辅助工具。”
还有一个有趣的局限性是,AI 大模型有时候并不能很好的搞懂股市中的 “ 结构关系 ”。比如一只股票下跌,另外几只也跟着下跌,这些公司之间往往有上下游关系或是其他供应链关系。
尤佳轩告诉我们,在现实中,如果让大模型把所有这些关系信息都输入,即便是长上下文的大模型,也无法较好地处理,计算成本高且效率低,同时模型性能会大幅下降。
不过,他们正在通过 “ 图学习 ” 的方式优化这一点,他表示 “ 图学习的优势在于它在结构化数据中进行信息传播。具体来说,我们可以先对每只股票单独做分析和推理,然后在图上把这些股票之间建立更高层的数据交互。也就是说,在大模型分析每只股票的基础上,再用图神经网络对这些分析结果进行更广层面的传播。这种传播过程成本低,不需要消耗大量 token,就能把各股票之间的关系有效整合。这是我们未来的愿景:从点到面,把单个股票的分析结果通过图结构串联起来,把相关指标和标的连接在一起,实现更全面的判断。 ”
最后,也是最值得注意的一点是,现在的 AI 大模型炒股相关研究中,AI 都并没有经历过大牛熊的考验,所以它会有很多潜在的未被发现的局限性。
尤佳轩就表示:“ 我们实验虽然有三个月,但依然相对短暂。我认为,只有经历完整的市场周期,包括恐慌期、乐观期和正常期,模型的长期表现才具有真正的参考价值。这个过程往往需要持续一年甚至更久。”
而在金融场景下,这种未知的局限性,可能往往是最致命的。
希望本文能让您对 AI 炒股的能力边界有更好的了解,但这并不是知危鼓励您去尝试。
实际上,相关研究的目的并不是真的为了交易赚钱,而是想通过金融市场交易,来评价模型本身。
就像尤佳轩对知危所说:“ 做大模型交易的本质,是建模和理解人类社会的运行。”
这也是他们将项目开源的原因,“ 人类社会不是一个人就能理解的。单靠一个实验组或公司,是无法全面建模的,需要整个社区广泛参与、贡献,并将成果回馈社会,才能真正建立完整的理解。”
“ 如果只是一个团队独自开发算法、保密所有信息,最后赚钱也是零和博弈,本质是收割散户的钱。” 他说道。
本文来自微信公众号“知危”,作者:知危编辑部,36氪经授权发布。
发布时间:2026-05-18 21:20