想改造蛋白质?交给人工智能吧活性序列抗体氨基酸

“要么换行业,要么拥抱人工智能。”这是互联网企业员工的感慨吗?不,这是一位科学家的启悟。

2020年蛋白质结构预测模型AlphaFold2横空出世,上海交通大学物理与天文学院、自然科学研究院教授洪亮大受震撼。彼时他是计算化学领域的专家,志在借助各类装置“看清”蛋白质的结构,并用传统计算方法解释其结构特点。AlphaFold2颠覆了这一切——它能广泛预测蛋白质的结构,准确程度不亚于真实实验所获。

不出所料,AlphaFold的开发者德米斯·哈萨比斯和约翰·江珀在2024年斩获诺贝尔化学奖,与他们一起获奖的戴维·贝克同样是借人工智能“破译了蛋白质的密码”。

到此,您或许还觉得这些都只是象牙塔里的事。不过,接下来将带给您一点点震撼:寻常如食品、宝贵如药物、高价值如医美产品、产业化如工业用酶……都已开始领略人工智能的力量。而且,不仅仅是预测,AI已经开始改造这个蛋白质支撑起的广大世界。

改造蛋白质的浪潮已来

人类生活离不开蛋白质,这一点不懂生物学也能了解。但是,人类社会的需求越来越多样,要求越来越高端,天然蛋白质未必能满足我们,科学家就开始考虑改造蛋白质了。

但是,这谈何容易!

传统方法改造蛋白质主要是依靠专家经验和高通量实验筛选,一般需要2至5年的研发周期,实验数据少则几万、多则上亿,成本更是千万元量级。

不过,洪亮团队改造蛋白质可以做到数十个项目同时进行,而且效率还不一般……

金赛药业是国内生长激素龙头企业,其产品纯化时需要用到一种抗体(蛋白质的一种)。但这种抗体耐碱性很差,纯化所必需的强碱环境会破坏其结构,导致抗体消耗很大。

怎么办?洪亮团队仅用4个月,交给企业改造而得的新抗体,耐碱性提高4倍,企业成本一年就可节约1500万元。

难道洪亮团队有什么魔法?其实他们只是主动拥抱技术浪潮而已——团队开发的基于预训练的通用人工智能Pro大模型扛起了所有。使用这一次从序列直达功能的大模型,研发周期可以月计算,产品更为稳定,活性更高,更不必说实验数据只需约100个,成本低至100万元。人工智能,为生命科学的基本流程按下了“加速键”。

为什么人工智能手段更强

为什么传统方法改造蛋白质很困难?这与蛋白质本身的复杂性有关。自然界中参与构成蛋白质的氨基酸有20种,一个蛋白质分子一般由几十个乃至数百个氨基酸组成,这些氨基酸按照一定序列连接肽链,一条或多条肽链遵循某些规律折叠才能得到蛋白质。

不难发现,即使只改变序列中某一个特定的氨基酸,也有19种选择。而随着想改变的氨基酸数量增加,可选方案的数量指数级增长,找到理想方案无异于大海捞针。

那人工智能是怎么做的呢?以Pro大模型为例,最关键的第一步就不同凡响:研究人员将要被改造的“野生”蛋白质序列上传给模型,1到2个小时后,模型会输出大约30个方案。

洪亮介绍,在此过程中,模型完成了两轮筛选,一是在众多有可能的改造方案中选出符合自然规律的,类似于将筛选范围从“大海”缩小到了“水盆”;二是以热稳定性、活性、亲和力、衰减耐受性等功能为指标,对“水盆”里的方案进行蛋白质功能打分,进而根据功能需求将范围缩小到“水杯”。

模型能发挥以上两大核心作用,要从数据驱动说起。简单说就是,投喂给模型足够多的数据,它就能从中总结出规律,从而预测新的答案。

洪亮介绍,团队向Pro模型投喂了近8亿蛋白质序列数据和接近1亿的蛋白质功能标签,其中超过5亿蛋白质序列和所有蛋白质功能标签来自团队及合作机构的长期积累,这是他们的核心优势。

值得一提的是,功能标签是该模型的“独门秘笈”,借助它可以为蛋白质序列与前文提到的热稳定性、活性、亲和力、衰减耐受性等功能找到合理的对应方式。此前AlphaFold2预测蛋白质结构一鸣惊人,就是因为它完美实现了蛋白质序列到结构的对应,而蛋白质序列到功能的良好对应有助于蛋白质实现更优异功能,可谓改造蛋白质的“胜负手”。

从蛋白质到底盘菌,有可能吗

改造蛋白质的可选方案从“大海”缩小到“水杯”之后,还要做什么呢?

第一步:湿实验验证,也就是将第一步中模型产出的方案拿去验证,并将验证结果反馈给模型,供其学习和调整。

洪亮团队正进行湿实验验证

第二步:模型重复第一步的预测,给出新一批方案,大约也是30个。

第三步一般也是最后一步:通过湿实验,从新一批方案中选出理想方案。

现在,更有提升空间的其实是湿实验,每轮湿实验验证需要1至2个月,每轮模型预测只需要1至2个小时。如果湿实验的机械化、智能化程度进一步提高,改造蛋白质的速度还会加快。

对于科学家来说,拥抱新技术的脚步一旦迈出,就不会轻易停歇。“蛋白质做得差不多了,我们在往纵深探索,下一步要攻关底盘菌的人工智能工程化方案。”洪亮指的是将蛋白质的人工智能改造,扩展到人工智能生产,通过改造底盘菌的基因组,让其高效生产目标产品。

如果要往更深层次理解,人工智能“攻下”蛋白质,其实是在“破译”生命的路上突飞猛进。以人工智能的颠覆性速度,或许要不了多久,我们就能目睹从“破译”生命到“修正”生命的变革。

THE END
1.湖南自考03475环境化学考试大纲及其过程和机理;初步了解污染物的定量结构与活性关系。 4.掌握典型污染物在环境各圈层中的转归和效应。 5.了解受污染环境的主要修复和治理技术及方法,特别是要掌握生物修复技 术如微生物修复技术和方法及其影响因素、植物修复技术和方法及其影响因素; 掌握化学氧化技术及其方法和影响因素;了解电动力学修复技术和方法及其...https://www.zikaosw.com/jcdg/ksdg/6683.html
2.基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法定量结构-活性关系(QSAR)方法可以用于KOA的预测。在环境科学领域,QSAR是指关联有机污染物的分子结构与其理化性质、环境行为和毒理学参数(统称为活性)的定量预测模型,该方法有助于大幅度降低实验测试费用,尤其有助于我国化学品企业应对欧盟REACH法规(化学品注册、评估、许可和限制法规)。根据经济合作与发展组织(OECD)提...https://www.xjishu.com/zhuanli/55/200910187937.html
1.最新结构化技术的应用与发展概览化工产品摘要:随着科技的不断发展,结构化技术的应用与发展日益受到关注。结构化技术是一种将数据进行有效组织和处理的技术,能够提升数据处理效率和准确性。目前,结构化技术正广泛应用于各个领域,如大数据分析、人工智能、云计算等。其发展趋势表现为更加智能化、自动化和高效化,能够为企业和个人提供更便捷、更高效的服务和解决...http://www.hengjiayanhua.cn/post/2152.html
2.结构方程模型▎潜变量分析复合变量分析及贝叶斯结构方程模型参数估...结构方程模型(Sructural Equation Model)是一种建立、估计和检验研究系统中多变量间因果关系的模型方法,它可以替代多元回归、因子分析、协方差分析等方法,利用图形化模型方式清晰展示研究系统中变量间的因果网络关系,是近年来地学、生态、进化、环境、医学、社会、经济领域中应用十分广泛的统计方法。然而,自Wright在1920年...https://blog.csdn.net/weixin_46433038/article/details/143743645
3.卤代有机化合物生物富集因子的定量结构摘要:依据经济合作与发展组织(OECD)关于定量结构-活性关系(QSAR)模型构建和使用导则,通过多元线性回归(MLR)方法建立了一个包含9个描述符的卤代有机化合物鱼类生物富集因子(BCF)的QSAR模型.QSAR模型的调整决定系数R2adj=0.877,去一法交叉验证系数Q2LOO=0.873,外部验证系数Q2EXT=0.757,表明模型具有较好的拟合优度、稳...https://d.wanfangdata.com.cn/periodical/cyyhj201305019
4.环境保护概况范文10篇(全文)4.2.2 化学品测试合格实验室体系和定量结构活性关系(QSAR)模型开发应用研究 (16)新化学物质安全性评价合格实验室体系及实验室审核与监管规范研究; (17) QSAR模型在优先管理化学品筛选上的应用研究; (18) QSAR模型在化学品危害性分类上的应用研究; (19) QSAR模型在化学品暴露和风险评价上的应用研究。 https://www.99xueshu.com/w/ikey9ig3okdt.html
5....活性测定及其分子结构与活性的定量关系目的·建立莨菪烷类M3受体拮抗剂的定量结构-活性关系(quantitative structure-activity relationship,QSAR)模型,为后续高活性分子的设计提供指导。方法·以3α-羟基莨菪烷(J0)为起始物,通过对莨菪烷母核C-3α位的结构进行改良,合成新莨菪烷类化合物(J1~J6)。选取富含M3受体的豚鼠气道环为测试样本,通过离体组织功能...https://mall.cnki.net/magazine/Article/SHEY201904007.htm
6.生物活性肽功能与制备简介,目录书摘第二节?抗高血压活性肽的制备方法 一、酶法水解蛋白质 二、直接提取法 三、发酵法 第三节?抗高血压活性肽的活性评价方法 一、体外活性评价方法 二、体内活性评价方法 三、人群实验 第四节?抗高血压活性肽的构效关系 一、ACE抑制物的结构特征 二、定量结构-活性关系模型(QSAR)和底物对接 ...https://www.jd.com/phb/zhishi/33961ff3e22ed519.html
7.近红外光谱快速分析技术及其在动物饲料和产品品质检测中的应用...进行了多种化学物质的性质&环境毒物的毒性和药物有关的性质的预测!建立了准确的定量结构性质+活性关系模型%对于每一种化学计量学方法而言!都有各自的长处和短处!在用于近红外光谱时可能受到某些限制%目前已有研究者将这些方法相互结合!取长补短!再将其应用于近红外光谱分析技术中....http://m.optosky.com/nd.jsp?id=126
8.2021年“华为杯”第十八届中国研究生数学建模竞赛题目D:抗乳腺癌...目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测 模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此 处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系 列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的 定量结构-活性关系(...https://m.book118.com/html/2022/0628/7102163124004135.shtm
9.医学开题报告范文模板(精选11篇)计算机辅助分子设计主要分两种情况:一种是在受体结构已知的情况下,采用生成与受体结构互补的配体的方法来寻找新药物;另一种是在受体结构未知的情况下,采用对一组具有类似活性的化合物建立定量结构活性关系,在此模型基础上进行结构修饰来预测生成新的化合物。 qsar作为抗肿瘤药物设计研究中的一个重要计算方法和常用手段,...https://www.wenshubang.com/lunwenfanwen/469049.html
10.毕业设计报告计算机辅助分子设计主要分两种情况:一种是在受体结构已知的情况下,采用生成与受体结构互补的配体的方法来寻找新药物;另一种是在受体结构未知的情况下,采用对一组具有类似活性的化合物建立定量结构活性关系,在此模型基础上进行结构修饰来预测生成新的化合物。 QSAR作为抗肿瘤药物设计研究中的一个重要计算方法和常用手段,...https://www.fwsir.com/fanwen/html/fanwen_20210107170907_652054.html
11.毕业设计开题报告(通用12篇)定量结构活性关系(Quantitative Structure-Activity Relationships,简称QSAR)是20世纪60年代发展起来的一门新兴学科,是由结构活性关系(Structure-Activity Relationship,简称SAR)发展而来的。QSAR是通过对已知结构且有生物活性系列化合物(如一系列有相同药理作用的结构相似的化合物)进行化学信息学的计算,选用适当的数学模型建立...https://www.ruiwen.com/word/biyeshejikaitibaogao.html
12.预防医学论文开题报告范文有关预防医学论文的开题报告怎么写计算机辅助分子设计主要分两种情况:一种是在受体结构已知的情况下采用生成与受体结构互补的配体的方法来寻找新药物;另一种是在受体结构未知的情况下,采用对一组具有类似活性的化合物建立定量结构活性关系,在此模型基础上进行结构修饰来预测生成新的化合物。QSAR作为抗肿瘤药物设计研究中的一个重要计算方法和常用手段,在...https://www.sibikeedu.com/wp/41594/
13.医学毕业设计的开题报告其中最为著名、应用最为广泛的是Hansch 法。 它假设同系列化合某些生物活性的变化是和它们某些可测量的物理化学性质(疏水性、电性质和空间立体性质等)的变化相联系的,并假定这些因子是彼此孤立的,采用多重自由能相关法,借助多重线性回归等统计方法就可以得到定量结构活性关系模型。 https://www.yjbys.com/biyesheji/1571227.html