利用堆叠集成学习,英国研究团队实现251颗盾牌座δ型星星震学指数高精度预测

英国华威大学研究团队构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0.77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

星震学通过解析恒星的天然振荡信号,反演其内部结构与演化状态,是现代恒星物理中最具穿透力的研究手段之一。在众多研究对象中,盾牌座 δ 型星(质量约为太阳的 1.5–2.5 倍)因其丰富的脉动模式和高度密集的振荡频谱,成为星震学的重要实验场。这类恒星的脉动主要源于氦电离区的不透明度(κ)机制驱动,而其内部对流核则进一步引发对流超射、化学混合以及角动量再分配等复杂过程。与此同时,较快的自转使振荡模式发生耦合与频率分裂,大幅增加了模式识别与参数提取的难度。

在星震学分析中,功率谱中最高峰对应的频率、最大振荡功率频率,以及大频率间隔 Δν 等参数尤为重要。其中,Δν 对恒星的平均密度极为敏感,是刻画其整体结构的核心指标。然而,对于盾牌座 δ 型星而言,快速自转与多模式混叠破坏了原本规则的频率间隔,使传统方法在测量 Δν 时面临显著挑战。

近年来,TESS 卫星获取的大规模高精度光变曲线数据,极大拓展了该类恒星的研究样本,但数据处理过程依然计算密集、依赖经验,参数的高精度提取仍不容易实现。在这一背景下,机器学习提供了一条新的技术路径。相比传统方法,集成学习能够融合多个模型的预测结果,在复杂数据环境下实现更高的精度与稳定性。随机森林、梯度提升和岭回归等方法,近年来已在天文学数据分析中展现出良好潜力。

英国华威大学研究团队正是基于这一思路,构建了一套堆叠式集成学习框架,直接从 TESS 光变曲线中预测盾牌座 δ 型星的关键星震学参数。该方法在 643 颗恒星样本上取得了显著效果:所有目标参数的决定系数 R² 均高于 0.77,并在未参与训练的 60 颗恒星上表现出良好的泛化能力,预测结果与传统星震学分析高度一致。

相关研究成果以「Ensemble Machine Learning Approach to Estimate the Asteroseismic Indices for δ Scuti Stars Observed by TESS」为题,已发表于 The Astronomical Journal。

研究亮点:

* 提出了一套直接从光变曲线估算关键星震学参数的机器学习框架,突破了传统方法的局限,大幅提升了参数提取的效率。

* 通过优化特征选择和模型架构,实现了高精度预测,并在独立样本上验证了其可靠性。

* 完成了 251 颗盾牌座 δ 型星的星震学指数测定,构建了新星表,丰富了相关恒星的参数数据库,为今后大样本统计分析和恒星演化研究提供了重要数据支撑。

论文地址:https://beta.iopscience.iop.org/article/10.3847/1538-3881/ae4bd8

数据集:TESS 光变曲线筛选与星震学样本构建

该研究使用的核心数据集包含 643 颗盾牌座 δ 型星的 TESS 光变曲线,以及三项关键星震学指数:ν(Aₘₐₓ)、νₘₐₓ 和 Δν。初始样本包含 677 颗盾牌座 δ 型星,经多轮筛选后保留 643 颗作为核心数据集。筛选标准包括:具备TESS 2 分钟短曝光光变曲线(来自 MAST 档案);每个观测天区数据点不少于 7,000 个;光变曲线经过 PDC-SAP 校正处理;且三项星震学参数完整可用。

在此基础上,研究人员额外选取了 251 颗盾牌座 δ 型星作为补充样本。这些恒星同样具备高质量光变曲线,但尚未发表对应的星震学参数。其入选条件为:至少覆盖 3 个观测天区,且每个天区数据点不低于 7,000 个。该部分样本主要用于模型的实际预测与验证。

643 颗盾牌座 δ 型星的频数直方图

模型:多基模型堆叠的集成回归框架

该研究的模型目标是基于光变曲线特征估算恒星的星震学参数。整体流程包括特征提取、数据预处理、集成建模以及超参数优化。

在特征构建方面,研究采用了两类特征:一类为统计特征(如均值、标准差、中位数等),用于描述光度分布的基本性质;另一类为频域特征,包括主成分分析(PCA)、自相关函数(ACF)、快速傅里叶变换(FFT)以及离散小波变换(DWT),用于提取振荡信号中的周期性与多尺度结构信息。

在数据预处理阶段,首先剔除存在缺失值的样本,并对特征进行归一化处理。此外,针对部分特征分布不均衡的问题,引入基于统计分布的重采样方法,以生成合成数据并缓解偏差,从而提高模型训练的稳定性。

框架方面,模型采用堆叠式集成回归框架,随机森林、梯度提升回归和岭回归作为基模型:前两者分别从降低方差和减小偏差的角度提升预测性能,岭回归则通过正则化处理特征间的共线性问题。基模型的输出进一步作为输入,训练元回归器进行融合,从而提升整体泛化能力并降低预测误差。

在模型训练过程中,研究人员还采用随机搜索结合交叉验证,对关键超参数(如树的数量、最大深度和学习率等)进行优化,以获得稳定且性能较优的模型配置。

以 60 颗独立星检验泛化,所有星震学指数 R²>0.77

实验验证包括模型训练、泛化能力评估以及新样本预测 3 个部分。

在训练阶段,研究人员从 643 颗恒星中随机选取 583 颗用于模型构建,并按 8:2 的比例划分训练集与测试集,重复 100 次以降低随机性影响。剩余 60 颗恒星作为独立测试集,用于评估模型的泛化能力。此外,251 颗未标注样本用于最终预测。

对比 583 颗星的实测与预测值、相对误差及误差分布

在训练与测试样本上,模型对 ν(Aₘₐₓ)、νₘₐₓ 和 Δν 的预测 R² 分别为 0.95、0.93 和 0.87,大多数样本的相对误差低于 0.2。特征重要性分析表明,自相关函数(ACF)贡献最大,其次为 FFT 与 DWT,部分统计特征(如偏度、峰度)也具有一定作用。学习曲线显示模型收敛稳定,超参数优化有效。

模型学习曲线

在独立测试集上,模型仍保持较好性能,三个参数的 R² 分别为 0.91、0.87 和 0.77,预测结果与观测值一致性较高。多次重复实验结果波动较小,说明模型具有较好的稳定性与鲁棒性。最后,研究人员将模型应用于 251 颗未标注恒星,得到其星震学参数预测值。结果整体落在盾牌座 δ 型星的合理范围内。

结语

整体来看,这项工作并不是对传统星震学方法的替代,而是一种有针对性的补充:在大规模观测数据快速积累的背景下,通过数据驱动方法实现参数的高效预估,再结合精细的物理建模进行深入分析。对于像盾牌座 δ 型星这样振荡模式复杂、难以标准化处理的目标,这种思路尤其具有现实意义。

本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。

发布时间:2026-04-27 17:20