最近AI在生物学领域可谓是大放异彩。斯坦福大学联合美国Arc研究所(ArcInstitute)的研究团队提出了一种基因组基础模型Evo,其能够在DNA、RNA和蛋白质的多模态任务中实现零样本预测和高精度生成。
论文地址:
作为论文的第一作者,EricNguyen连发多条动态介绍Evo这一成果,并多次感谢团队研究成员,更是直言「能与这样一个了不起的团队合作,真是荣幸!」
据论文介绍,Evo使用StripedHyena架构,在大型基因组数据集上进行训练,该数据集包含了8万多个细菌和古细菌基因组,以及数百万个预测的噬菌体和质粒序列,涵盖了3千亿个核苷酸token,能够生成长度超过1兆碱基的具有合理基因组架构的DNA序列。
此外,Evo参数规模达70亿,最大上下文长度可达131,072个token,可以揭示编码序列和非编码序列之间错综复杂的共同进化,并设计出复杂的生物系统,如CRISPR-Cas复合物和IS200和IS605转座子。
总而言之,Evo预测、生成和设计整个基因组序列的能力,不仅为生命科学提供新的理论支撑,还有望被应用于基因编辑、药物发现、疾病诊断、农业等领域,助力多领域的突破性成果研发。
不少网友对Evo的发布表示震撼,更是对该模型的具体应用充满了期待。
教程链接:
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.点击右下角「下一步:选择算力」。
4.页面跳转后,选择「NVIDIARTXA6000,并根据自身需求选择「按量付费」或者「包日/周/月」,选择「PyTorch」镜像后,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得4小时RTX4090+5小时CPU的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):
6.当状态变为「运行中」后,点击「打开工作空间」选项。
7.进入Jupyter工作空间后,双击点开「README」文件,即可正式进入Evo模型运行页面。
2.例如,将prompt默认值改为AGCT,当调整完默认参数值后,点击「重启并运行所有单元格」选项,选择「Restart」进行运行。
4.此外,Evo模型还可以对生成的DNA序列进行分析,学习编码序列和非编码序列的共同进化联系。它还能从DNA序列中预测蛋白编码基因(protein-codinggenes),对RNA系统进行编码设计,从而预测生成的蛋白质折叠结构,并最终以图像的形式呈现。