MIT团队开源BoltzGen,可跨分子类型设计蛋白结合物,66%靶标获纳摩尔级亲和力

针对传统的蛋白设计依赖物理计算、计算成本高、设计空间受限,且难以同时处理多模态目标的局限,麻省理工学院与多家机构合作推出了 BoltzGen,以几何连续表示代替传统离散残基标签,实现蛋白折叠与结合体设计的联合训练,并构建了灵活的设计规范语言,实现了跨分子类型的可控生成,提高了模型的设计效率、通用性和可解释性。

在药物研发和生物分子工程领域,「De-novo 蛋白设计(De-novo Binder Design)」是药物研发自动化的核心方法之一。研究人员能够借助计算模拟与深度学习,在特定靶点上生成具有结合能力的肽链或蛋白结构,抗体、纳米抗体、环肽等新型药物形态的开发也因此成为可能。

然而,传统的蛋白设计策略多依赖基于分子动力学模拟等物理计算及序列优化算法。虽然在单个体系中可达高精度,但计算成本高、设计空间受限,且难以同时处理蛋白质小分子和 RNA 等多模态目标。而目前的深度生成模型一定程度上提高了生成速度,却普遍缺乏「原子级别」的结构推理能力,针对特定类别分子进行优化,通用性有限;同时,其模型评估常依赖训练集中已有相似复合物,难以验证其对「未见靶点」的泛化能力,缺乏可控的生成机制与灵活的结构约束表达,存在设计效率和可解释性局限。

针对这一问题,麻省理工学院与 Boltz 等多家机构合作提出了统一结构预测与结合体设计的「全原子生成模型(All-atom Generative Model)」 BoltzGen。该模型不仅以几何连续表示代替传统离散残基标签,在单一体系中实现蛋白折叠与结合体设计的联合训练,而且构建了灵活的「设计规范语言」,实现了跨分子类型的可控生成。

实验结果显示,BoltzGen 纳米抗体与蛋白结合体设计均有 66% 的目标获得纳摩尔级亲和力,首次证明了「单一模型体系」可在多模态生物分子设计中实现折叠与结合性能的同步最优。

目前, 相关研究成果以「BoltzGen: Toward Universal Binder Design」为题发布。 

GitHub 地址:https://github.com/HannesStark/boltzgen

研究亮点:

* 在单一全原子生成模型中统一了结构预测与结合体设计,实现在原子级精度下同时完成蛋白折叠、结合位点建模与序列生成,大幅提升了分子设计的物理合理性与可控性; 

* 提出通用的「设计规范语言」,让模型可在蛋白质、纳米抗体、环肽、小分子等不同体系中灵活切换,实现跨模态的结构生成与约束控制,拓宽了生成式 AI 在生物分子设计领域的适用范围。 

论文地址:https://go.hyper.ai/3sx2K

混合数据集:多模态的训练策略

研究团队在训练 BoltzGen 时采用了多层次、跨模态的联合训练框架,其使用的数据集核心来源包括 3 类:

* 来自 Protein Data Bank(PDB) 的高质量实验解析结构,覆盖 RNA、DNA 及蛋白质小分子等多种复合结构,为模型提供真实的化学键约束与三维几何分布数据; 

*  来自 AlphaFold Database(AFDB) 、由 AlphaFold2 预测并再学习的实验数据,涵盖蛋白质在实验中产生的可靠折叠规律; 

*  Boltz-1 模型生成的复合结构样本,涵盖小分子结合、RNA 与 DNA 相互作用等多模态场景,能够增强模型在不同生物分子类型间的泛化能力。 

为了防止模型过度偏向特定结构类型,研究团队剔除了抗体与 TCR 的上采样数据集,保持生成空间的多样性。同时,所有结构样本在训练过程中均经过随机裁剪与多任务化处理,以便模型在每一次训练迭代中随机承担折叠预测、结合体设计、结构补全等任务,实现统一的多功能学习框架,从而使模型在原子级生成的同时具备跨模态理解能力。

模型架构:从噪声到结构的全原子推理

该模型保留了 AlphaFold3 和 Boltz-2 架构的主要组件,并在此基础上进行了部分改进,以引入更多的条件输入。

如下图所示,整个模型被分为两个主要部分:一个较大的 Trunk(主干网络),以及一个 Diffusion Module(扩散模块)。其中,Trunk 负责生成用于条件控制的 token 表征和 pairwise(成对)表征,而扩散模块则在此基础上生成三维结构。Trunk 仅运行一次,而扩散模块会多次迭代运行,以逐步去噪所有原子的三维坐标。

BoltzGen 模型架构图

在 Trunk 阶段,其与 Boltz-2 的 Trunk 模块相似,负责解析输入的蛋白结构与目标信息。Trunk 模块处理的是经过 token 化的分子结构,主体采用 PairFormer 架构,通过三角注意力(Triangle Attention)高效建模原子之间的空间关系;同时结合几何残基编码(Geometric Residue Encoding),在连续空间中同时推断残基类型与原子坐标,不再依赖离散的氨基酸标签。这一机制让模型能在生成时真正理解结构物理规律,而非仅依靠数据记忆。

在 Diffusion Module 阶段,该模块接收带噪声的三维原子坐标(noisy 3D atomic coordinates)作为输入,并预测其去噪后的坐标。同时,其采用标准的 Transformer 架构,在原子层级(atom level)和 token 层级(token level)上共同运行。BoltzGen 利用连续空间扩散模型对原子坐标进行逐步「去噪」生成,通过预测噪声向量实现从随机初态到稳定构象的转化,并在生成过程中保留分子能量面的约束,从而避免物理冲突或结构塌陷。

实验结果:跨越 26 个靶点的通用设计验证

在实验部分,BoltzGen 模型的性能验证覆盖了从蛋白质到肽类、从新型病原体到小分子靶标的多个维度,展现出卓越的泛化与可控性。

团队在 8 个独立的湿实验验证项目中共测试了 26 个靶标,涉及纳米抗体、蛋白质、线性与环状肽等多种结合体类型。结果显示,BoltzGen 在未见过的复杂目标上依然保持了高成功率:在 9 个与训练数据完全不同的新靶标实验中,所设计的蛋白质与纳米抗体均在 66% 的靶标上获得纳摩尔级(nM)高亲和力结合,显示出模型的强大的结构推理与跨模态设计能力。

蛋白质设计的实验结果

在针对多样结构的生物活性肽实验中,BoltzGen 设计的蛋白质能以纳摩尔至微摩尔(μM)级的亲和力结合不同类型的肽分子,并有效中和其抗菌或溶血活性。针对急性髓系白血病相关的无序蛋白 NPM1,模型生成的多肽在活细胞中表现出核仁共定位,提供了首个体内证据支持 AI 设计的蛋白可与天然无序蛋白结合。 

设计结合 NPM1 无序区域的肽

针对细胞代谢核心酶 RagC 和 RagA:RagC 二聚体的设计也获得显著结果:29 个候选肽中有 7 个成功结合 RagC,最高亲和力达 3.5 µM;环状二硫键肽设计则有 14 个显示出稳定结合。 

设计结合 RagCGTP 酶特定位点的多肽

BoltzGen 还在两个具有生物医学意义的小分子上展示了跨尺度设计能力,生成的蛋白结合体在 50–150 µM 范围内显示出可检测的结合活性,证明该模型在无需专家化学指导的前提下即可实现小分子识别。此外,针对细菌 DNA 回旋酶 GyrA 的抗菌肽设计中,超过 19% 的候选序列能使细菌生长下降四倍以上,其中部分肽能直接杀灭宿主细胞。 

设计与小分子结合的蛋白质

在 5 个包含已知结合结构的基准靶标测试中(如 PD-L1、TNFα、PDGFR 等),BoltzGen 同样取得高命中率——80% 的靶标出现纳摩尔级结合体,验证了其与当前最优模型持平的精度。 

蛋白质结合剂的测试结果

蛋白质结合剂的测试结果

总体来看,这一系列实验表明 BoltzGen 不仅能在已知数据分布内再现高质量结合结构,更能在完全陌生的生物体系中实现功能性设计。其统一的全原子生成架构使「设计—预测—验证」流程融为一体,为未来的药物发现与生物分子工程提供了开放、可控且可扩展的 AI 基础设施。

从预测到生成,Boltz 系列重塑 AI 驱动的分子设计版图

2024 年,麻省理工学院 Jameel Clinic 研究团队推出了 Boltz-1 模型。在全球药物设计领域从「结构预测」向「功能生成」迁移的行业风向下,虽然 AlphaFold 系列模型率先揭示了蛋白质折叠问题的可计算性,但 AlphaFold3 未完全开源,局限了产业界在真实药物场景中的自由迭代。于是,Boltz-1 在这一背景下应运而生。它不仅在性能上接近 AlphaFold3,而且完全开源、可商用,推动分子结构预测进入了行业的开放生态。

Boltz-1 采用扩散模型与 Transformer 架构相结合的生成体系,能够在原子级别预测蛋白质、RNA、DNA 及小分子复合物结构。其灵活的条件化接口,让模型能针对特定结合位点或分子构象进行精准建模,极大拓宽了其产业应用范围,从新型抗体设计、酶工程优化,到小分子配体筛选,都能在 Boltz-1 框架下实现端到端预测,大大降低了生物计算的进入门槛。

2025 年,麻省理工学院 Jameel Clinic 团队在 Boltz-1 的基础上推出了 Boltz-2 模型。将蛋白折叠预测精度推至新高,被称为「结构生物学的 GPT-4」。

相比前作,Boltz-2 在生成精度和计算效率上实现了显著提升,同时引入了多模态条件化输入,使其能够整合序列信息、实验数据及化学性质,实现更为精细的分子设计。在全球生物计算与药物发现迈向「全场景生成」的浪潮中,Boltz-2 的出现进一步填补了学术界与产业界对高可用、可扩展、可商用工具的需求。

Boltz-2 继承并优化了扩散模型与 Transformer 架构的混合生成体系,其核心 Trunk 模块能够一次性提取蛋白质或核酸复合物的多层次表示,而 Diffusion 模块则在此基础上进行结构生成和优化。 

Boltz-2 结构图

得益于灵活的条件化接口,研究者可以针对特定结合位点、活性口袋或小分子配体精确调控输出结构,显著拓展了模型在新型抗体设计、酶催化优化、药物先导分子筛选等领域的应用潜力。Boltz-2 的开源特性也确保了学术与产业界能够自由迭代,从而加速了分子生成计算向真实药物开发场景的落地。

如今,BoltzGen 提出了一种通用的「设计规范语言」,让模型可在蛋白质、纳米抗体、环肽、小分子等不同体系中灵活切换,实现跨模态的结构生成与约束控制,进一步拓宽了生成式 AI 在生物分子设计领域的适用范围。

本文来自微信公众号“HyperAI超神经”,作者:椰椰、紫晗,36氪经授权发布。

发布时间:2025-10-27 16:00