JMC:药企来揭秘,薛定谔、赛诺菲、优时比等共同披露计算药物发现行业视角

Early R&D Talking

聚焦 

计算科学与药物发现

DOI: 10.1021/acs.jmedchem.4c03087

侃侃而言  学以致用

 

苗头化合物(Hit)的发现是药物研发至关重要的一环,当前有多种 Hit 发现的方法盛行,其中基于计算科学的 Hit 发现,尤其是虚拟筛选(VS)以低成本的优势成为湿试验的重要补充,近些年来成为几种重要的 Hit 发现的常规操作之一。

早期技术围绕着成熟的软件程序千万级实体化合物库的融合进行开发、发展;当这一进程趋于稳定,该领域的创新速度大大放缓了。

然而,近些年来,算力大幅提升、超大规模“按需定制”虚拟化合物库兴起、神经网络容量扩展、自由能计算应用范围扩大、以及蛋白质结构预测的进步,共同推动虚拟筛选发生更加重大的变革。

近日(May 20),来自薛定谔赛诺菲优时比(UCB)、英国癌症研究展望机构、法国罗曼维尔加拉帕戈斯 SASU 等组织机构的科学家,在 J. Med. Chem. 上汇总了来自企业界计算药物发现从业者的行业指南。

该文从行业实践者的角度出发,系统梳理了基于计算的 Hit 发现的关键变革,主要涵盖了以下几个重要方面:

(1)构建高效端到端筛选流程的实用建议;

(2)通过规避常见陷阱降低风险的策略;

(3)成功标准的界定;

(4)并展望了近期可能对药物发现产生影响的重要新兴技术。

 

01

计算科学药物发现的核心技术

 
 
 
 1.1   药物研发 “道阻且艰”
药物发现向来有很大的淘汰率,绝大部分化合物/项目甚至没有机会进入到临床阶段,而在研发进展的每个环节都需要耗费大量经费。
这也意味着,制药公司要保持其管道中充满众多具有潜力的靶点管线,才能在激烈的竞争中占据优势。然而,这也意味着化合物从发现、开发到进入市场(即成药)的整个过程是一个“烧钱”的过程。
针对这些靶点管线,初始 Hit 是起点。
从历史的角度来看,大多数 Hits 要么来自于已知的起点,如靶蛋白内源性配体、或者已经发表的配体;要么通过大型公司化合物平台的生化高通量筛选(HTS)启动获得。
本着降低成本、提高 Hit 发现率的初衷,近些年开发和发展了大量的技术。
  1. 亲和选择-质谱法(AS-MS):利用靶标-配体结合相互作用,从小分子混合物中分离出具有药理活性的化合物,以满足组合化学高通量筛选的需求。
    近些年来该技术与 DNA 编码文库(DEL)筛选技术相结合,提高 Hit 发现率,也获得了不错的效果。
  2. 定向筛选:根据对靶标或化学类别的已有了解,缩小范围,目标明确,选择一组小批量的化合物筛选,相比大型化合物库平台的 HTS,可加快速度、降低成本。
    这种技术在 DEL 上也有体现,如集中型文库的设计与筛选。此外,与基于结构的筛选(SBDD)的相结合,目标更加明确,更有利于先导分子优化。
  3. 基于片段的药物发现(FBDD):通过结合亲和力,筛选数千种低分子量(MW <300 Da)简单片段,识别与靶标结合的 Hits。
    这类 Hits 通常亲和力中等或较低,需要再通过片段的优化(如生长、连接、合并等)提升片段的活性和选择性。 
    当然,近些年也有利用 DEL 技术与片段库结合(如天然产物片段),来提升筛选的通量。
  4. DNA 编码文库(DEL)筛选:利用组合化学构建高通量文库(从数亿到数十亿种化合物库),并结合DNA 标签标记小分子,通过亲和力筛选对靶标具有亲和力的结合物,以 NGS 策略、分析后识别,需要候选的重合成验证 hits 结合力以及功能活性。
  5. 基于计算的 Hits 发现:利用计算的方法预测潜在的候选药物,如虚拟筛选(VS)超大化合物库的超高通量虚拟筛选(UHTVS)、机器学习与主动学习等。
对比这些 Hits 发现方法,HTS 和 DEL 等方法涉及到大量的化合物,且用量极少,需要更多的“化学基础设施”来处理、合成、和筛选化合物。
而 VS 需求的则是计算能力(如 CPUs、GPUs)、数据储存空间、和化合物选择的模型。这些模型可以是基于结构的虚拟筛选(SBVS),通常指的是靶蛋白的结构;也可以是基于配体的虚拟筛选(LBVS),通常指的是活性化合物(一个或者一系列)。
 
 1.2   计算 Hits 发现的核心技术与方法
硬件和算法的发展对计算 Hits 发现产生的影响最为深刻。就虚拟筛选而言,按照模型可以分为 SBVS、LBVS,如下表。
SBVS 可基于靶点蛋白的3D结构(实验解析或AI预测,如AlphaFold),通过分子对接(如Glide、AutoDock Vina)和自由能计算(如FEP、MM-PBSA)预测结合模式与亲和力。
LBVS 可基于已知活性化合物的结构或药效团模型,通过2D/3D相似性搜索(如ROCS、FastROCS)或机器学习模型筛选化合物。
此外,也可结合 SBVS 与 LBVS 或引入试验数据(如片段结合模式),对筛选流程进行优化。
得益于可及的超大型化合物库(如下表)的发展,如 Enamine REAL Space、ZINC22 等商业库,和 GDB-17 等公共库,已覆盖了超千亿化合物,支持更广化学空间的探索。
按需合成(make-on-demand)使合成可行性提高,降低了库成本,是的超大型化学库虚拟筛选(UHTVS)获得了发展。
其它技术,如通过迭代筛选优化计算资源配置,显著提高超大型库的筛选效率,如主动学习(AL);更强大的计算方法,如绝对自由能摄动(AB-FEP),可以应用于对化合物进行排序。
 

02

主要挑战与应对策略

 
 
在实际的试验中,针对生物靶标鉴定所需要活性的化合物非常具有挑战性。这些挑战可能来自于靶标自身、或者筛选用的化合物库的选择、以及 Hits 发现的方法,如下图。
在计算机辅助的 Hits 发现阶段,主要面对的挑战和最佳的实践解决方案如下。
 
 2.1   挑战一:靶标自身复杂性的挑战
不同靶标类别的结构复杂性、和作用机制多样性,使得发现靶向治疗相关分子具有挑战性。
据统计,2018-2021年间 156 种临床候选药物中,激酶其它酶类是最常见的靶向类别,占比约 31%、28%。这其中的因素可能得益于已经建立了完善的化学文库,以及特定靶标类别的广泛研究。
其它类别,如核受体离子通道表观遗传靶点GPCR 等在临床候选药物中所占比例越来越小,反映了靶向这些生物大分子的固有挑战,包括调节这类大分子的活性核脱靶效应。
基于成熟的靶标类别,如激酶和其它酶类,已经有了比较完善的 SBVS、SBDD 方法,更容易发现 Hits。然而,这些靶蛋白家族往往具有高度相似的活性位点,鉴定而出的 Hits 可能缺乏选择性
对于膜蛋白、RNA/DNA、无序蛋白(IDPs)等结构灵活性高的挑战性复杂靶标,传统对接方法难以捕捉动态变化。
对此,通过计算的方法,尚有可解决的方案。如,通过分子动力学(MD)模拟,识别隐式结合位点;或使用混合溶剂 MD,或偏置 MD,探索构象空间;抑或依赖 AlphaFold3 等工具预测蛋白-配体相互作用。
 
 2.2   挑战二:化合物库规模与多样性挑战
一个成功的 Hits 鉴定,依赖于使用大型的、生物样的、多样性的、可合成化合物库来进行筛选。
据估计,当前现有的超大型、按需制备、或“切实”文库已超过千亿级不同的有机小分子化合物,而其实际的数字还在继续增长。这是一个非常可观的数字,绝对满足预期;然而,化学空间的大小,对富集因子和效力的影响仍有待进一步验证
筛选方法对文库规模也产生了限制,尤其是基于化合物数量的考虑。
那么合理的选择方法和可用文库非常重要,对于计算成本高的方法,更合理的做法是专注于较小但精心选择过的文库;而对于高吞吐量的方法,筛选尽可能大的文库更有益处。
有些研究似乎表明,基于非常大的文库进行虚拟筛选可能有利于提高 Hits 成功率;然而,需要注意的是,这些 Hits 成功率的提高可能高度依赖于特定的靶点类型,因此,尚不能武断地将成功率与文库大之间相关起来。
超大型的文库筛选提供了更多的可探索化学空间,但也需要考虑它同样也带来了计算的限制(尤其是细节水平方面),以及计算资源、软件等多方面的成本。
总体而言,文库大小、计算资源、时间等的平衡,对于 VS 来说是当前面临的主要挑战。然而,也有一些可行性的策略来解决当前的问题:
(1)采取精密的采样策略,如分批筛选结合主动学习,利用前批次获得信息优化后批次的筛选,可以显著提高 Hits 成功率,并减少计算成本;
(2)预过滤以缩小文库规模的策略,如通过药效团模型、合成难度评估等率先辅助以缩减文库规模;
(3)多样性选择方法以避免化学空间冗余,在决定选择化合物库进行 VS 之前,首先要考虑的是这些化合物是否是已经商业化的,或是否可按需合成
商业化的成品可大大降低成本、加快进程,但代价是减少化学空间的覆盖范围;按需合成的文库,可快速交付,相比于定制合成偏倚,但成本也是明显更高的(相比于商业化成品而言)。
若定制合成是可接受的(成本、时间),那么这将是最理想的目标定制库,可提供更大的多样性。
总体而言,以从业者的经验而言,在启动 VS 之前首先要考虑订购流程、以及预算;需要对比不同的设置:如 Hits 成功率的期待值与额外成本的合理关系、供应商选择(可能受政策限制、甲乙双方流程时间的限制)。
选择供应商另一个很重要的考虑因素是:其供应文库中是否有其它可用化合物(即目标化合物的类似物),如果类似物可及,这也大大加快 Hits 的发展。
 
 2.3   挑战三:SBVS的技术瓶颈
开始 SBVS 前,早期的关键步骤是确定靶标的结构。理想的情况是,有多种高质量配体结构、以及已知的活性化合物,这些可用于系统小规模测试以确定最优的结构。
条件允许下,即可选择所有可用的结构,也可根据先导筛选中活性化合物的富集情况选择一部分结构用于对接。多个晶体结构则有机会从结构的差异中发现潜在的灵活区域。
然而,如果配体可与结合位点的多个不同构象结合,无法在一个对接模型中捕获的有效的结构,因此,灵活性的结构仍然是对接的主要难题,传统的 SBVS 对柔性靶点准确性低,假阳性率高
为了解决柔性靶标灵活性的问题,已经开发了灵活的对接/诱导算法,然而计算成本也显著增加。有许多对接方法,如Glide、FlexX、Gold、Dock、Autodock Vina、Diffdock、Equibind 等。
如何选择算法通过由团队内有什么算法决定的,如果有条件选择多个算法,那么则从吞吐量、稳定性、甚至基于对特定算法的历史成功和失败的经验来抉择。
条件允许下,利用已知配体,或寻找类似靶点或至少同一类靶点的其它报道,以此来验证对接软件。
即使完成了 SBVS,通常也会出现其它挑战,同时也已经有了对应策略。
(1)发现的 Hits 是很好的结合物,但无功能活性;通过自由能计算可帮助发现成功诱导所需功能活性的分子。
(2)对接得分很高,然对接分子缺少与靶点重要相互作用;可通过在对接计算过程中使用相互作用约束来规避。
(3)VS 产生化合物与已知的化合物过于相似,可拓展的化学空间有限;可通过预先文库过滤,去除与先前报道分子过于相似的化合物,或者通过多样性筛选技术来避免。
(4)化合物复杂、昂贵、或合成困难;可通过筛选商售现成的超大型文库来防止,如 Enamine REAL Space、WuXi GalaXi;此外,也可通过计算机辅助合成软件评估化合物的合成复杂性,如AiZynthFinder、Synthia、Pathfinder 等。
在业界的项目实践中,有如有一个 DEL+VS 的应用实例
第一步,团队获得唯一可用的靶标配体来自一个 DEL 筛选获得的 Hit;
第二步,基于该 DEL Hit,获得了几种具有结合配体的高分辨晶体结构;
第三步,基于晶体结构,利用主动学习,在 Enamine REAL DB(14亿化合物库)上进行超大型 VS 研究;发现化合物结合口袋为一个诱导口袋,且化合物都是 L-型走势;
第四步,获得 205万对接较好的 hits;以 L-型约束对接过程,Hits 个数下降到 1900 个,包含 5 个新型系列;
第五步,通过 2 名药物化学家和 1 名计算化学家各自独立评估具有最佳对接分数的前 2750 个 hits(L-型约束前数据),和具有最佳形状的相互作用的 1900 个 Hits(L-型约束后数据),最终购买了 372 个化合物,后续并设计了 198 个化合物。
第六步,SPR 验证结果显示,有 20 个化合物在 100 μM 以下具有结合力,其中 3 个化合物在 10 μM 以下具有结合力。
 
 2.4   挑战四:LBVS 的技术瓶颈
LBVS 利用化合物信息来预测活性,评估文库化合物与对特定靶标具有活性的参考化合物的相似性。通常是探索共享子结构或药效团来识别数据库中感兴趣的其它化合物。
LBVS 相比于 SBVS 具有显著优势,它不涉及生物大分子的计算,通常用于 Hits 发现,尤其是当靶蛋白的三维结构不可用时;且对计算需求较低,常用于处理大型化合物库的过滤。
LBVS 的主要方法有 4 种:2D 相似性、定量构效关系(QSAR)模型、基于药效团、基于形状的方法。4 种方法都有各自的优点和局限性。
QSAR 模型建立了化学性质和生物活性之间的关系,但这种对生物靶标的隐性考虑并不能完全描述靶标的特性;而且这些方法主要建立在已有的足够的先验知识,如活性数据,因此它们的有效性在很大程度上取决于数据的质量及其适用范围;
基于药效团的评分在识别常见药效团特征方面表现出色,但可能忽略了靶标配体的互补性和详细的结合相互作用。
基于形状的方法评估分子形状,可用于识别结构相似性的配体,但可能会错过微妙的相互作用;
至于 2D 相似性评估的方法最大的挑战是对配体的描述。化合物通常被编码为指纹(FPs),包括各种各样的指纹类型。这些 FPs 之间的相似性计算通常使用谷本或其它距离度量来测量,引入一个主观性因素。
因此,针对广泛研究的热门靶标是,LBVS 面临的挑战更大,数据噪声和相似性偏差会导致新颖性不足。
对此,可基于多方法联合,如形状筛选联合药效团筛选、或生成式 AI 设计全新的骨架来规避。
 

03

先进技术在 Hits 识别中的应用

 
 
 
 3.1   机器学习(ML)
基于已知知识的 VS 可学习并捕捉配体特征,甚至是配体与受体的相互作用,往往是基于局部的模型为靶标的 3D 结构。因此,驱动此类的局部方法需要一组模板活性化合物,用于训练预测模型。
然而,筛选前期可能没有这些可利用模型,或者研发的目标是寻找与已知的活性分子截然不同的分子,这就限制了它们的应用。
因此,基于无模板活性化合物的全局模式是当前研究的重点。
此外,机器学习已被用于通过主动学习技术加速对接筛选,以实现超大型的虚拟筛选。
 3.2   主动学习(AL)
通过迭代筛选优化资源配置,优先评估高潜力化合物,可显著提升大型文库的筛选效率,将主动学习应用于 LBVS 。
 3.3   结合位点识别
传统的方法依赖于物理特征,如疏水性、几何形状等预测结合位点,而机器学习的方法如 P2Rank、GRASP 等基于公开结构训练,提升预测精度与泛化能力。
 3.4   对接姿态预测
分子对接仍然是预测各种配体结合模式的流行选择,为 VS 构建配体文库。有许多基于机器学习的评估函数可用,然用于对接的程序,局限在几种经典的程序之内。直到近些年,才有基于先进的创造性 ML 方法的对接程序,代表性的如 EquiBind、TankBind、DiffDock 等。
 3.5   FBDD的联合应用
FBDD 长期以来都是药物发现的支柱,如下图所示,是典型 FBDD 从早期片段发展成先导化合物的过程。
FBDD 的优势是命中率高、成本低,与 VS 相结合,引导设计、优化结构,可大大提高 Hit 成功率。
然而,FBDD 也有明显的缺点。首先,化学空间片段受到高溶解度限制;其次,片段 Hits 可能是混杂的,没有足够的选择性。
结合 VS,通过结构信息进行优化,通过添加化学基团、合并、或链接片段等策略提高片段结合亲和力和特异性。
 3.6   Hits 分析与再评估
需深入分析预测结合模式和相互作用,评估化合物多样性,选择具有不同性质和相互作用模式的化合物。
因多数对接算法依赖经验参数,预测亲和力准确性不足,可通过更准确但计算密集型的方法(如MM-PBSA、MM-GBSA、FEP等)再评分,提高命中率。
 

04

总结与展望

 
 
虚拟筛选正从传统工具向 AI 驱动的多模态平台演进,超大型库与自由能计算为核心竞争力。未来需持续优化算法精度、降低计算成本,并强化实验与计算的协同创新,以应对复杂靶点高淘汰率的行业挑战。
这篇文章具有非常重要的意义:
  1. 及时呈现虚拟筛选生态系统的行业洞察,阐明算力、人工智能与化合物库的革新如何重塑Hit发现策略。
  2. 针对化学家探索超大规模化学库时的核心挑战,提出优化Hit质量、合成可行性与化学多样性并控制计算资源的策略。
  3. 评估机器学习在Hit发现中的应用现状,明确方法适用场景与局限性,为实际应用提供指导。

 

(转载:早研早聊)

 

 

 

首页    JMC:药企来揭秘,薛定谔、赛诺菲、优时比等共同披露计算药物发现行业视角