本文所提出的慢解离药物从头设计框架如图1所示。首先,开发了基于MoE的解离动力学通用模型,利用易于获取的配体SMILES字符串和蛋白质FASTA字符串,来高效精准预测pkoff(-logkoff)(图1(a))。其次,集成解离动力学模型与数学规划法,将慢解离药物设计问题表述为由目标函数(pkoff)、结构约束、性质约束组合而成的混合整数非线性规划模型(图1(b))。再次,采用分解式算法求解数学规划模型,从而高通量优化设计得到针对某一靶标的按pkoff降序排序的定制虚拟候选药物库(图1(c))。最后,潜在药物候选物通过严格的随机加速分子动力学模拟(τ-RAMD)方法进行验证(图1(d))。
图1.慢解离药物从头设计框架
基于MoE的解离动力学通用模型的架构如图2所示。
图2.基于MoE的解离动力学通用模型的架构
结果与讨论
基于MoE的解离动力学通用模型性能
经过100次随机训练,基于MoE的解离动力学通用模型在训练集、验证集和测试集上的平均MSE和r值分别为0.200±0.012、0.300±0.045、0.288±0.028和0.890±0.007、0.821±0.025、0.835±0.017,测试集的预测结果表明,所建立的解离动力学模型在评估靶标-药物解离动力学方面具有可接受的预测能力,并能够对新样品进行满意的泛化预测。若不使用MoE层,解离动力学通用模型在训练集、验证集和测试集上的平均MSE和r值分别为0.245±0.018、0.320±0.047、0.307±0.034和0.864±0.010、0.808±0.028、0.825±0.022,说明引入MoE层的重要性。图3展示了100个随机训练的基于MoE的解离动力学通用模型在整个数据集上的预测结果。通过比较pkoff预测值(以100次预测的均值±标准偏差表示)和pkoff实验值来评估预测误差,在整个数据集上的R2、MAE和MAPE分别为0.793、0.324和38.4%。pkoff预测值(以100次预测的均值±标准偏差表示)和pkoff实验值之间的绝对预测误差范围为0到2.473,大约96.5%的样本显示绝对预测误差小于或等于1。因此,在使用这100个随机训练的MoE模型时,预测误差较小。
图3.100个随机训练的基于MoE的解离动力学通用模型的预测结果
为了评估特征提取层(MoE层之前的层)在提取靶标-药物特征方面的能力,以及MoE层在提高解离动力学模型预测准确性中的作用机制,本文利用提取的靶标-药物特征和t-SNE聚类方法创建了化学空间,如图4所示。图4(a)中的不同颜色代表按蛋白样本大小降序排列的前十种蛋白质。图4(a)显示,几乎所有样本都根据其蛋白质类型得到了良好的聚类,这表明特征提取层通过完全数据驱动的方式成功区分了靶标-药物特征。在图4(b)中,相同的化学空间用专家类别重新标注,标注的颜色通过MoE层中门控网络对每个样本的最大权重确定的。一方面,某些蛋白质(例如蛋白质1和蛋白质7)的预测结果主要受到特定专家(例如专家1)的影响。此外,具有相似靶标-药物特征的蛋白质(例如蛋白质4-6)与同一专家(例如专家1)关联。这些观察结果证实了一些专家特别擅长处理特定蛋白质,尤其是那些具有相似靶标-药物特征的样本(例如蛋白质4-6)。另一方面,一些蛋白质(例如蛋白质8)的预测结果涉及多个专家(例如专家3和专家4),突显了MoE系统协作机制在处理展现独特靶标-药物特征的特定蛋白质复杂样本时的优越性。以上发现表明,门控网络可根据专家各自擅长处理的靶标-药物特征来分配专家权重,从而更好地预测koff大小。
图4.由靶标-药物特征和t-SNE聚类方法创建的化学空间
此外,本文使用100个随机训练的MoE模型对来自Amangeldiuly等人和Liu等人的样本进行pkoff预测(以100次预测的均值±标准偏差表示)。最终,对Amangeldiuly等人和Liu等人样本的预测结果的r值分别为0.870和0.728,表示本文的MoE模型在预测koff方面的高稳健性和高准确性。这一结果可能归结于本文构建了一个经过良好清理且样本多样的高质量数据库。此外,相较于依赖靶标-药物三维结构的深度学习模型,本文模型所利用的文本描述符容易获取,因此计算效率更高。
4.2数学规划法为HSP90蛋白设计定制虚拟抑制剂库
针对HSP90靶标,本文集成深度学习模型与数学规划法设计慢解离HSP90候选抑制剂,设计流程如图5所示。
图5.慢解离HSP90候选抑制剂设计流程
此外,采用ECFP描述符和t-SNE方法创建化学空间(图6(a)),用以表征261,736个设计的HSP90候选抑制剂的结构多样性,其中不同颜色代表不同的骨架。如图6(a)所示,大量设计的HSP90候选抑制剂分布在靠近参考化合物(由图6(a)中的五角星表示)的位置,表明所提框架在设计与参考化合物相似的药物候选物方面具有强大的能力。此外,远离参考化合物的众多化合物的存在突显了所提框架在设计显著不同于参考化合物的HSP90候选抑制剂方面的能力。这种能力可以归因于基于骨架的相似性算法,该算法利用24个不同的评估标准来扩大药物候选物的设计范围。
图6.HSP90候选抑制剂的设计结果。(a)使用ECFP描述符和t-SNE方法设计的HSP90候选抑制剂的化学空间。(b)参考化合物的二维分子结构。(c)潜在HSP90抑制剂的二维分子结构。(d)具有全新骨架的化合物的二维分子结构。
此外,对排名结果的分析显示,PubChem数据库中可用的化合物的pkoff值普遍低于参考化合物的值。这一发现表明,目前已知的化合物不太可能在解离动力学方面表现优越,突显了设计新药候选物的迫切需要。关于其他尚未上市且已知合成路径有限的HSP90候选抑制剂,本文采用严格的τ-RAMD方法对参考化合物(预测pkoff=2.598±0.281,如图6(b)所示)、潜在HSP90候选抑制剂(预测pkoff=2.608±0.284,如图6(c)所示)和具有全新骨架的化合物(预测pkoff=2.480±0.363,如图6(d)所示)进行严格验证。
使用τ-RAMD方法验证HSP90候选抑制剂
图7.HSP90结合位点的两种主要构象
图8.潜在HSP90候选抑制剂和参考化合物结合状态的分子动力学模拟结果
结论
第一作者为大连理工大学生物工程学院,赵雨靓博士后。
通讯作者为大连理工大学化工学院,刘奇磊副教授。
个人主页:
参考资料
Zhao,Y.,Zhang,L.,Du,J.,Meng,Q.,Zhang,L.,Wang,H.,Sun,L.andLiu,Q.,2024.Mixture-of-ExpertsBasedDissociationKineticModelforDeNovoDesignofHSP90InhibitorswithProlongedResidenceTime.JournalofChemicalInformationandModeling.