如果你给一位量化基金经理看一条近乎完美的净值曲线——回撤极小、收益极高、波动规律得像心跳。他大概率不会感到兴奋,而是会冷冷地问一句:“你确定策略没有过拟合吗?”
量化研究和所有的研究一样,都是试图从海量的历史价格数据中寻找规律,但这个规律不是为了解释过去,而是希望预测未来。
所谓“过拟合”,通俗来说就是,你的模型表现得太好了,以至于它除了能解释过去,对未来一无所知。
为什么在投资的世界里,解释过去和预测未来会发生矛盾呢?
下面的三张图展现了“过拟合”发生的原因:
左图属于“欠拟合”,它只发现了蓝点大概在左边,橙点大概在右边,但界线太过简单;
中间的图属于“完美模型”,它用简单的曲线描绘了蓝点和橙点的界线,只有少数点不符合模型,可以视为“噪声”,这样的模型就拥有了泛化能力,所谓“泛化”,就是个别经验可以推到更多的应用场景。
右图就是“过拟合”,它不但试图描绘了蓝点和橙点的界线,甚至把几个明显是“噪声”的点也纳入模型,因此显得非常复杂。
可以想象,这个模型尽管在训练数据上表现优秀,一旦进入实盘环境,面对从未见过的、随机分布的未来数据,它们就会迅速失效。
“过拟合”产生的原因在于,你太想找一个完美的策略了,比如夏普比率大于2、最大回撤小于5%等。而金融市场是一个信噪比极低的环境,大部分的价格波动其实是无意义的随机噪声。如果你追求极致的绩效指标,你的算法就会不由自主地去迎合这些噪声,把噪声当成信号来建模时,得到的策略其实只是恰好契合了某段特定历史样本的产物。
就像右图一样,“过拟合”的策略,往往不断增加各种过滤条件,比如“只在周二买入”、“MACD金叉且当天北京有雨”,等等,而一个拥有20个参数的策略,远比只有2个参数的策略更容易在历史数据中“拼凑”出一条漂亮的净值曲线,也更容易出现“过拟合”。
举个例子,如果用电脑分析过去的彩票开奖结果,只要堆的参数足够多,一定可以找到一个公式,完美解释过去所有中奖号码的排列规律,但下一次开奖后,它就崩了,你还要再加参数。
过拟合的本质,是用过于复杂的模型去解释一个充满随机性的世界。
有趣的是,这种原本存在于高性能服务器里的“计算陷阱”,其实每天都在我们的大脑中上演。某种程度上,我们许多根深蒂固的人生观,本质上都是一场关于人生的“过拟合”。
人类大脑有约860亿个神经元,有足够的“容量”去记住每一个创伤、每一次成功、每一个情绪强烈的瞬间,并将它们编码成未来决策的权重。这是进化赋予的生存优势,但也带来了“过拟合”的风险。
只不过,量化策略的“过拟合”是精确的巧合,而人脑的“过拟合”往往是粗陋的偏见。
想象一个人连续两次遇到“看起来很热情但后来被坑了”的合作伙伴,可能会产生两种认知模型:
正确的认知模型:我需要在合作前做更充分的背景调查,并分阶段投入资源。
过拟合的认知模型:所有热情的人都不值得信任。以后只要对方表现出热情,我就自动疏远。
后者就是在用两段历史数据拟合出了一个过于具体且失去泛化能力的决策规则。未来既可能帮他避开“热情的骗子”,也可能让他错过那些真诚热情的优秀合作伙伴。
一个人的一生,真正具有统计学意义的、足以改变命运轨迹的“独立重大事件”,可能不过几十次:
你选择哪所大学、选择哪份职业;
你选择和谁结婚、在哪个城市定居;
你在某个关键年份的一次大宗投资,或者在某次危机中的一次转身。
用区区几十个样本去拟合一个维度近乎无穷大、复杂程度远超金融市场的现实世界,在数学逻辑上,过拟合几乎是必然的。
就像上一章的那三张图,大部分人不会满足于中间的那个模型,而是试图用右边的“过拟合”的模型去解释过去,指导未来。
还有数据反馈的问题,在量化策略中,我们经常用收益率来强化模型;而在人类认知中,痛苦和快乐就是最强烈的反馈信号。一次剧烈疼痛形成的“权重更新”,可能远超一次温和反馈的几百倍,这就好比在回测中某一次极端行情被赋予了过高的权重。
当一个人通过“努力+运气”在某件事上获得了成功,他的大脑会迅速总结出一套极其复杂的逻辑。他会把当天的气温、自己的言谈举止、甚至当时信奉的一句格言,全部归纳为成功的核心要素。他坚信自己掌握了世界的密码,却不知道那可能只是命运在随机噪声中投下的一束光。
上述“过拟合”现象,我们通常称之为“经验主义”,用有限的历史样本,拟合出一个过于复杂的决策模型,从而牺牲了在未知情境中的泛化能力。
更麻烦的是,虽然人脑也有“过拟合”的问题,却不像量化策略那样有科学的纠正机制。
为了防止“过拟合”,量化有一系列科学手段来检测,比如将数据分为训练集和测试集,用训练集构建逻辑,用测试集检验逻辑,或者用历史数据训练、用新数据验证。
但人生永远在实战,没有训练集也没有测试集,人生无法两次踏进同一条河,无法像量化软件那样克隆一个自己,去平行宇宙里测试你的经验是否依然奏效。
更重要的是,人类还有心理防御机制,让我们极难意识到,那些我们引以为傲的人生经验,可能只是对过去某段特殊时期的“过拟合”而已。
比如确认偏误,人类一旦形成某个信念,大脑会主动寻找支持它的证据,忽略反驳它的案例。这相当于在实盘中给一个已经“过拟合”的模型添加更多参数,让它拟合新数据,但也越来越偏离真相。
比如归因偏差,当决策成功时,归因于自己的判断力;当决策失败时,归因于运气或外部因素。这种不对称的反馈机制,让人难以像量化交易员那样冷静地评估自己的策略。
但认知到这一点,人类也可以建立自己的纠错机制。
量化交易员为了防范过拟合,要求在策略开发过程中,必须留出一段“盲测数据”,在策略逻辑完全定型、参数完全锁定之前,绝对不准看它一眼。只有当一切尘埃落定,才用这段从未被“偷看过”的数据进行终极检验。
人类其实也可以借鉴这种思维方式。
当你形成一个坚定的认知(模型)时,不要急于将其作为真理。尝试在内心建立一个“隔离区”,在做出重要人生决策之前,你可以打开这个“隔离区”,包括::
寻找那些与你过去经验完全不同的新领域
寻找那些被你刻意忽略的“反面证据”
找一个自己过去没有考虑过的视角
读一本相反立场的书
请教一个背景完全不同的人
……
然后问问自己,我学到的这个经验,到底是基于事件中可重复的逻辑,还是仅仅基于当时某个偶然的细节?如果换一批人、换一个时间,同样的逻辑还能成立吗?
对于任何让自己印象深刻的教训,都要刻意提醒自己:“这件事可能只是个例,不宜下太强的结论”。
还要建立概率思维,把自己的看法视为概率分布而非固定值,新信息来了,就要更新后验概率,而不是推翻一切或固守一切。
庄子说:吾生也有涯,而知也无涯,以有涯随无涯,殆已。
人,应该如何用有限的经验(测试数据),去应对无限的可能性(未来世界)?
在量化投资中,有一个著名的概念叫“维数灾难”,模型每增加一个参数,其解释能力看似增强,但其稳定性和生命力却呈指数级下降。大部分成功的量化策略,其逻辑不相关的核心因子一般不超过5个。
经验丰富的交易员更倾向于使用基于基本经济逻辑或市场微观结构的简洁策略。比如,“均值回归”逻辑是基于人类恐慌与贪婪的心理本质,这种逻辑不仅在100年前有效,在100年后大概率依然有效。
越是简单的逻辑,越能跨越不同的周期,因为它更能抓住事物的本质,而不是去描摹噪声的形状。
巴菲特的投资理念也是非常简单的——好公司+复利,而且几乎不变,简单稳定到让很多人觉得巴菲特也不过如此。
人生也是如此。
一个高度复杂的成功路径,依赖于特定的人脉、特定的政策、特定的行业红利,极易在环境突变时崩塌。而那些基于常识、基于底层逻辑(如诚实、复利、终身学习、风险控制)的“简单策略”,虽然在短期内看起来没有那些复杂模式收益惊人,但它们拥有更强的韧性,能够带你穿越人生的多个周期。
这就是古人总结的“大道至简”的现代科学解释,西方哲学中的“奥卡姆剃刀原则”,也是这个意思。
不要试图去解析所有的失败,也不要试图去拟合每一次成功,要承认随机性的存在,时刻对自己的经验保持怀疑,并永远保持人生策略的简洁性。
本文来自微信公众号“lig0624”(ID:tongyipaocha),作者:思想钢印,36氪经授权发布。
发布时间:2026-04-08 11:40