ChemRxiv:5 年计划响应 Target 2035 倡议,辉瑞披露大规模蛋白质-配体大数据支持机器学习研究
DOI: 10.26434/chemrxiv-2025-b009c
“Target 2035” 计划是一项开发科学的全球倡议,旨在到 2035 年为所有人类蛋白质开发出一种高效、选择性的药物调节剂。
近日(May 5),来自辉瑞的科学家以及 Target 2035 工作组在 ChemRixv 预印刊上发文,披露其在小分子化学探针方面的重点突破。
为了 2035 年的宏伟蓝图,SGC 与 Target 2035 工作组开展“5年计划”,利用亲和筛选质谱(AS-MS)和 DNA 编码文库(DEL)筛选技术创建大型、公开可用的高质量蛋白质-小分子结合物数据集(包含正面数据和负面数据),为机器学习提供数据模型,并预测新的、多样性小分子结合物,以开发计算方法,革新小分子 Hits 的发现,突破瓶颈。
原文开源,文末点击“阅读原文”可直达原刊。
“Target 2035” 倡议为人类所有的蛋白质开发出强效、选择性的药理调节剂。该计划始于 2020 年,早期重点聚焦在整理文献报道的高质量调节剂,包括小分子和生物制剂,也包括小分子探针、生物探针。
与此同时,该计划也在测试可用于大规模生成和分析新型调节剂的技术。
当前阶段(2025-2030),聚焦于构建大规模蛋白质-配体结合数据集,开发方法以突破小分子配体发现的瓶颈,降低药物研发的成本,缩短时间。
对于化学探针,它们是针对特定蛋白质的高效、选择性、具有细胞活性的小分子,是生命科学领域最具影响力的工具之一。
广泛获取针对人类所有蛋白质的化学探针,将极大地推动对人类蛋白质的理解,并帮助优先选择具有潜力的新药物靶点。
2009 年,结构基因联盟(SGC)启动计划,旨在收集和开发针对细胞信号传导、蛋白质稳态和表观遗传相关的人类蛋白质化学探针。该计划成果收集了超 200 种针对独特蛋白质的化学探针。
而为新型蛋白开发化学探针的第一步,则是鉴定 Hits。
(1)针对充分研究的药物靶标,如激酶、GPCR类,可筛选已验证的化合物类别库、或基于现有试验数据的计算预测,快速发现 Hits。
(2)对于很少研究的蛋白质靶标,Hits 发现往往是关键限速步骤,具有挑战性,往往需要依靠大型、多样性化合物库试验筛选,并需要随后既耗时、又昂贵的验证与优化。
过去的 20 年,为了降低成本、缩短时间,也大幅扩展了 Hits 发现的试验方法。但整体成功率和成本效益并未显著提升,因此,为实现 “target 2035” 的宏伟蓝图,非常有必要开发和发展全新的策略。
计算的方法,尤其是机器学习(ML)和人工智能(AI),有望提高 Hits 成功率,并降低成本,然而,却受限于现有蛋白质-配体数据集的质量和规模。
(1)数据分散,如分散在 ChEMBL 、PubChem 等数据库中;
(2)数据非公开,有些数据隶属私产,并不向公众开放;
(3)非标准化来源,从非标准化试验方案中汇编而来,训练数据会带来噪声;
这些数据并非最佳的 ML/AI 分析、训练数据来源。因此,数据匮乏是发展算法的最大障碍。SGC 和 Target 2035 工作组决定实现宏伟蓝图的下一个 5 年计划(2025-2030)是:
-
系统生成大型试验蛋白质-小分子结合数据集,并提供对注释好的数据集的开放访问;
-
与社会团体合作,培训、开发、改进、测试、以及基准评估 Hit 发现算法。
采用的创新性方法与蛋白质结构预测的 AlphaFold 程序开发存在概念上的相似性。AI 在蛋白质结构预测中的成功得益于:
(1)结构生物学和基因组学团体生成的大规模开放性数据;
(4)参与结构预测的团体,其算法由 CASP(蛋白质预测关键评估)团队通过公开挑战竞赛进行基准测试。
然而,这种类比有很大的局限性。比如,由 20 种氨基酸定义的蛋白质折叠式范式所能提供的分子内相互作用,相比于约 1060 种药物分子之间的相互作用的多样性,空间相对有限。
显然,AI-驱动药物设计的突破需要新的 ML 策略,且无法预测这种突破所需要的蛋白质-配体数据集的大小和多样性,甚至无法预测短期内能否实现。尽管有这些风险,但可以肯定的是,高质量、大规模的蛋白质-配体数据集是解决这一问题的基础。
1.4 大规模数据集生成:DEL、AS-MS 助力
在这个 “5-年计划” 里,主要目标是:将生成高质量、开发数据集,包括数以百万乃至亿计的小分子与 2000 多种不同蛋白质的结合数据。数据中包括使用正交生物物理、和功能检测对试验获得和计算预测的候选 Hits 进行测试的结果。
(2)基于 AS-MS、DEL 筛选生成结合数据,并生成质量指标;生成的小分子结合物将在二次筛选中使用正交、高质量的生物物理分析、测试,保证数据质量;
(3)以 ML/AI-需要的格式注释、并在 AIRCHECK 数据库中公开初级筛选数据;
(4)向 ML/AI 和计算化学领域的专家发起挑战,以这些数据进行预测,并组织一系列基准测试竞赛,助力相关方法的进一步发展;
(6)通过 AIRCHECK 共享预测结合物的分析数据;
(7)共享试剂、方案、结合物、以及数据,并不限制使用。
此外,对于尽可能多的已确认的结合物,都会尝试与同类型靶标进行共结晶,并通过测试已确定结合剂的结构类似物来探索 SAR。这些类似物可以来自供应商,也可以定制合成。并利用可及的结合物进行功能测试。
因此,这个项目将产生两个重要成果:为优质蛋白质生成新型小分子结合物;创建一个全面、注释好的数据集,以推进计算方法。
并通过优先考虑数据质量、数据一致性、数据访问、以及与数据科学家合作设计实验工作流程和输出来实现第二个成果。
为了生成足够大小和多样性的蛋白质-小分子结合物数据集,首先要获得一组多样的、纯化的、均质的、稳定蛋白质。此外,很难预先确定计算方法所需的数据集数量,于是研究人员制定了一个“5年计划”,即期间至少筛选 2000 种不同蛋白质靶标,这是根据 SGC 于 2007-2012 年间的纯化独特蛋白质能力而制定的。
靶蛋白的选择标准将以最大化蛋白质靶标的结构和功能多样性为主,并兼顾资助团体和参与者的感兴趣靶蛋白。如下图所示:
-
50% 靶蛋白优先选择来自以往实验纯化,并可追溯,以建立和优化平台、物流、和程序。这类往往容易纯化、具有合适已知的生物物理特征、有可用的正交实验数据。
-
-
随着项目的进展,一些从未纯化过的、具有挑战性的靶蛋白的数量将会增加。
产生数据的平台至关重要,经过多方面的考虑,选择了亲和筛选质谱(AS-MS)平台、和 DNA 编码文库(DEL)筛选平台作为数据产生方式,原因如下:
-
直接基于结合的分析,消除为每种蛋白质开放定制功能分析的不切实际的要求,特别是有利于数千种没有已知活性的人类蛋白质。对于已知功能的蛋白质,功能分析可能有助于 Hits 验证过程。
-
单一制备的纯化蛋白既可用于 Hits 的初级筛选,也可用于 Hits 验证的二次正交生物物理试验。
-
针对多种来源的纯化蛋白质靶标的筛选,可以随时展开。
-
AS-MS、DEL 已经在多种类型的蛋白质靶标上获得了验证,每次筛选都有可能产生数百万个高质量的数据点,并展示了广泛靶标的 Hits 成功率。
-
AS-MS、DEL 产生的数据具有共同的试验设计,可用于机器可读的格式表示,并聚合越来越多的数据集。
这些数据的庞大规模和高纬度特性还可充分利用 ML/AI 领域已经广泛开放的相应分析技术,并被应用于化学信息学中的药物发现。
DNA编码化学库(DEL):利用DNA标记化合物库进行高通量筛选(>1000亿分子),结合ML分析富集数据预测活性分子
亲和选择质谱(AS-MS):通过质谱直接检测小分子与纯化蛋白质的结合,适用于中低通量筛选(Kd 范围 1-15 µM)。
为 ML/AI 应用程序生成筛选数据集,基于行业经验,需要特别关注数据质量、数据注释、数据可用性的验证。因此,该项计划的数据质量将公开提供,并在三个层面上实施:蛋白质样品、DEL 和 AS-MS 筛选输出、以及 Hits 注释。
(1)蛋白质样品,必须符合既定试验质量标准,并附有可能影响数据结束和模型建立的关键数据,如纯化条件、金属离子存在等。
(2)筛选输出数据集,将根据相关参数评估主要 AS-MS、DEL 筛选输出数据的质量,公开所有通过质量检测的原始筛选数据。
(3)初级筛选数据的二级注释:AS-MS、DEL 都会产生假阳性、假阴性 Hits,为了保证 ML/AI 应用数据的质量,必须使用正交分析来区分真阳性、和假阳性。
然而,分析弱结合化合物非常具有挑战性,关键的是权衡投入多少精力来确定筛选的 Hits 是否为正在的结合物,并向建模领域表明每种分析的局限性。保证注释数据集中最大的真阳性,是建模最理想的选择。因此,这需要数据产生人员与建模人员持续、密切的讨论,减少数据误解和过度解读。
(4)数据一致性:二次筛选和数据注释将集中在设备齐全,且经验丰富的学术或商业实验室中,在标准操作流程下操作程序。
数据管理将与试验方法一样,认真对待。数据管理遵循以下原则:
(1)存储标准化、ML-ready的筛选数据(含原始数据、注释、元数据);
(2)遵循 FAIR 原则(可发现、可访问、可互操作、可重用),支持数据透明性和算法可复现性。
获得大型、一致性、高质量的数据的目的是促进计算和机器学习 Hits 发现于优化方法的发展。这些数据短期内集中于预测筛选集中蛋白质的结合物和优化策略,长期看将建立 Hits 发现和优化的基础模型。
在计算生物学领域,基准测试的价值获得了时间的肯定和明确,并在多年以来逐步改进。其中一些建议的初始基准测试挑战如下表:
这是一件非常宏大的项目,艰难的是开始与实施。和之前介绍的“大联盟”一样,谁能参与进去,谁又愿意参与进去?
好在目前已经由试点到实施展开了,目前试点项目奠定了一些基础,现在具备的能力如下:
(1)生产 2000 多种高质量人类蛋白质,大多数无配体;
(2)利用 AS-MS、DEL 对这些蛋白进行化合物文库筛选;
(3)存储和传播数据,具有强大的数据管理能力和数据库构架;
这是一个竞争前的开发科学合作项目,其中所有项目资源生成的化合物分析数据,包括已确认 Hits 的化学结构和算法,将在许可下向公众开放,许可要求归属,但对后续使用没有限制。
该项目需要让来自公共和私营部门的科学家参与进来,以便获得所需的广泛的技能和专业知识。其项目管理构建如下图。
该计划的长期目标是开发高效的计算命中查找算法,该算法可用于生成免费可用的小分子粘合剂,最初用于数千种蛋白质,最终用于所有相关的人类蛋白质。然而,在项目的过程中,将产生具有相当价值的中间结果,并且这些结果应该用作跟踪和管理项目的度量标准。一些关键指标如下:

(转载:早研早聊)
首页
ꄲ
ChemRxiv:5 年计划响应 Target 2035 倡议,辉瑞披露大规模蛋白质-配体大数据支持机器学习研究