AI重塑科研:新工具不断涌现,但能否触及真正的“科学”?

人工智能(AI)工具正在改变科学研究的方式。AlphaFold基本解决了蛋白质结构预测难题;DeepMD大大提高了分子模拟的效率和精度;而新兴的大型语言模型,如ChatGPT等,也正在科学研究领域开疆拓土。

新兴的AI4S工具

张林峰:让我们从一个基本问题开始讨论:什么是“AIforScience”?

鄂维南:AIforScience是一种新的研究范式,我们使用AI工具来增强我们做科学研究的能力,这和我们用计算机来助力科学研究是类似的。具体来说,基于AI的算法可以极大地提高基于第一性原理进行建模的效率和准确性。AI还可以通过提供新的实验设计、更准确和高效的实验表征算法,甚至新的实验设备,来改进我们做实验的方式。此外,AI领域的工作流程和开源、协作的精神,也为科学研究带来启发。

RobertoCar:在我看来,AI提供了一套可以促进科学发现的工具,以机器学习和深度神经网络为代表。要做到这一点,需要开发一些具体的工具。我想在我的研究领域中引用三个例子。

第二个例子是,AI可以设计具有特定性能的新材料和新分子。我并没有直接从事这个领域的研究,但我知道有很多人在做这件事,而AI可以利用大量数据——来自实验、理论和模拟的数据——来预测哪些材料或分子可能更适合某些目的。

第三个例子是,AI可用于分析实验数据,比如,可以通过提高软件的信噪比来提升探针的选择性。

王涵:除了Roberto提到的这些例子,AI工具也在改变我们处理科学数据的方式。特别是,大语言模型可以非常有效地从科学数据和文献中提取出知识和关键点。

此外,AI也正在改变科学软件的开发方式,可以自动生成代码、检测软件漏洞,并为我们提供提高代码效率的建议。所有这些AI工具都大大提高了科学研究的效率。

大语言模型带来的新机遇

张林峰:除了阅读论文,大语言模型还会给AI4S带来哪些新的可能性?

关于这些模型的进一步开发,我认为提示工程(PromptEngineering)是一个有趣的方向,这可以帮助我们更好地指导模型,让它们能够做更多令人惊奇的事情。

王涵:生成式模型技术对科学研究很有帮助。例如,许多科学问题需要对高维概率分布进行采样,这就是一个生成问题。在这方面已经有成功的例子,使用生成式工具,比如扩散模型和生成式对抗性网络(GAN),可以生成高维分布的样本。

另一个例子是,条件扩散模型可用于设计在给定条件下具有特定性质的分子。这为解决分子和材料设计问题提供了新的可能性。

张林峰:大模型助力科学研究的一个很好的出发点是它们的图像阅读能力。例如,可以用大模型来阅读电子显微镜照片,并从图像生成结构。

目前,我们正在尝试开发新的工具来提高大语言模型理解科学文献的能力。特别是,在文献中,分子会以文本、分子式、图像等不同形式表示,目前的模型不能很好地将这些信息结合起来,进行透彻的理解。

鄂维南:大模型可能会为新问题、新想法提供建议,还有助于将不同的学科结合在一起。

人工智能与科学:答案与理解

DavidSrolovitz:我想从偏哲学的角度谈谈人工智能和科学之间的关系。我曾认为人工智能的方法是反科学的,因为它往往是获得“答案”,而非“理解”。但科学的使命恰恰就是去获得“理解”。

不过我已经改变了想法。原因是我开始意识到,当我们能够获得很多可信的答案,这些答案将可以提供有价值的提示,去引导科学的发展。这类似于模拟。作为一名理论研究者,我总是把模拟看作是在理论成熟之前窥探答案的一种方法。

无论如何,人工智能正在改变我们做科学的方式,我认为我们正处于新科学范式的早期阶段。

王涵:我认为当前大语言模型的一个主要弱点是,它们不能像人类一样进行有逻辑的推理。这可能就是它们难以解释它们所给出的答案的原因。

DavidSrolovitz:没错。但是你认为,像人类一样推理能够给出更好的答案吗?我对此不太确定。

RobertoCar:我同意来自AI工具的新数据可以提供新的洞察,但是当你获得这些数据之后,仍然需要人类科学家来决定下一步需要进行怎样的分析。这是人工智能无法做到的。

人工智能的确正在产生一种新的科学研究范式,但这并不意味着传统的研究理念将被取代或抛弃。相反,传统的理论研究需要加强,才能更好地验证机器学习模型的鲁棒性。这些模型允许我们将模型预测外推到比训练发生的环境更广泛的环境中。但是通常很难在严格的数学边界上去验证这些预测。

例如,正如我提到的,在模拟中,人工智能在量子力学计算和分子模拟之间架起了桥梁。但在大规模系统中,如果训练数据中没有考虑到一定会发生的罕见事件,人工智能工具就可能会失败。也就是说,当我们需要用物理直觉和物理思维的基本工具来分析问题时,就会促进新的理论模型的发展——这些模型最终将由新的微分方程来表示,将可以比现有模型更好地描述复杂系统的动力学。

人工智能的确更擅长获得答案,而不是理解。但这也未必一定如此。一个例子是,可以使用知识图谱来理解不同分子之间的关系。我不确定这是否已经实现,但这肯定是一个有益的方向。我们创建了一个关于经济学的知识图谱,它有助于揭示不同的经济参数是如何相互关联的。我相信这样的尝试在科学上是非常有帮助和有启发性的。

AI有创造力吗?

RobertoCar:在我的印象中,人工智能模型可以做常规分析,但很难做到任何需要创造力的事情。但我有可能是错的,或者在不久的将来,我将会是错的。

鄂维南:我认为人工智能可以创造,但现在要讨论细节还为时过早。

DavidSrolovitz:目前的生成式模型可以创作艺术品,而且我感觉它们在这方面的表现非常出色。这是创造力吗?我不确定。说到这里,我其实一直认为原子间势能是一门科学艺术。15年或20年后,科学研究可能不再遵循我们所熟悉的方式。

王涵:我对艺术作品生成模型的理解是,它们生成的图片或多或少是训练数据中已有的艺术风格的组合,而不能生成全新的艺术风格。不过实际上,大多数人类艺术作品也都是对现有艺术风格和作品的组合,而人工智能可以以创造性的方式进行这种组合。

DavidSrolovitz:就连科学研究也是这样,我认为大多数的研究工作都是在用新的方式去组合已有的事物。

构建AI4S的开放环境

DavidSrolovitz:很显然,没有一个研究团队能够独立创建出有竞争力的大语言模型。作为科学家,我们不应该试图写出我们自己的版本。我们应该做的是学习如何驾驭它、训练它、设计它,从而去做我们想做的事情。就像没有一个研究团队会试图建造自己的强子对撞机一样。它们是科学家们可以利用的工具。

鄂维南:归根结底,这是一个投入和产出的问题。目前,虽然已经展现出商业机会,AI4S在很大程度上仍然是一个科学研究的方向。这对资助机构来说是一个很好的机会。中国国家自然科学基金委员会就资助了支持AI4S的重大研究计划。

王涵:我认为,公司的利益可能并不总是与科学家的利益一致。如果不能产生利润,公司就不会为科学家开发工具。这可能是科学界和公司之间的主要分歧。这个分歧可以通过政府投资来填补,但我不知道这会不会足够。

DavidSrolovitz:现在,科学研究人员,甚至包括军事技术的研究人员,都在学习如何利用商用软件和技术去解决自己关心的科学问题。尽管这些技术不是为他们开发的,但他们也可以学会如何利用它。所以我认为,如果一些AI工具不是为科学家设计的,我们面临的挑战将是,要学习如何利用它们来做我们作为科学家想做的事情。

张林峰:开发AI4S工具,例如我们所开发的DeePMD-kit,依赖于众多社区伙伴的共同努力。在开发过程中,我们面临的挑战和瓶颈会不断转移。

最初,主要挑战在于模型设计和软件开发。随后,为了满足不同用户的需求,我们需要的是既通晓软件操作又理解科学问题的技术人才。此后,高性能计算和云计算等基础设施成为了新的瓶颈。目前,在积累了大量数据的基础上,我们有了发展大原子模型的可能性、但也因此再次面临模型和软件开发的新瓶颈。

在这个过程中,我们也致力于发展一个名为DeepModeling的开源社区,并为这些工具构建一个稳定的用户平台,叫做玻尔空间站。我们期望该界面能够像个人电脑或智能手机一样直观易用,允许不同用户自由探索并解决他们各自的问题。

RobertoCar:我不确定我们是否需要创建一个界面,将所有的AI4S工具集成在一起,但是一定程度的集成是肯定会出现的,也是非常有益的。这就需要不同的子社区之间进行更多的互动,包括模拟研究者、材料设计者、实验研究者等。

DavidSrolovitz:一个事实是,科学家并不擅长开发接口或者标准化工具集。科学家比公司更擅长的是提出好的问题,这对科学本身至关重要。

RobertoCar:我们同时需要公司和科学家。我们需要一个开放的环境,在这个环境中,可以轻松地交流信息,每个人都可以查看数据,并且可以自由地提出新的问题。如果我们能让这个环境维持下去,就会有很大的进步。但不幸的是,要创造这样的环境有许多困难。

挑战与机遇

张林峰:谢谢大家的讨论。作为总结,请给出你认为AI4S目前面临的一个瓶颈,以及你的一个建议。

RobertoCar:AI4S在分子模拟领域的一个瓶颈是,它不能很好地处理电子转移现象。电子转移对于各种化学反应都是必不可少的,但由于我们还不能捕捉到精确的电子坐标,所以仍然很难模拟这种现象。要解决这一问题,不仅需要人工智能技术的发展,还需要超越当前基于基本物理定律(如波恩-奥本海默近似和密度泛函理论)的科学范式的新的建模方法。

我对AI4S的一个建议是我们已经讨论过的:我们需要尽一切努力去维持一个开放的研究环境,并按照科学的规律和方法运作。

DavidSrolovitz:展望未来,我真的很有兴趣看到更多关于“可解释的人工智能”的发展,去理解人工智能预测背后的道理。现在在这个领域有很多工作要做,我对此很乐观。我还认为,这些进步对科学的好处可能比对计算机科学和人工智能技术的好处更大。

王涵:对我来说,下一个重要的机会将是大原子模型。最终的目标是建立一个元素周期表的通用模型,但是这个目标可能不会在可预测的未来实现。但是大原子模型,作为原子模拟的预训练模型,在不久的将来将会实现。

THE END
1.AI工具集AI工具集汇总了多种AI开发和实现所需工具的集合。这些工具包括AI写作、视频、音频、对话、办公等AI工具网站 热门工具 GPT-4o OpenAI最新推出的旗舰生成式AI模型 Claude2 ChatGPT的最为有力的竞争对手之一 青泥学术 青泥学术推出的大数据学术写作辅助系统 https://www.xueshuchuangxin.com/AITools/Home
2.秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质(2)DeepMind的AI for Science团队负责人Pushmeet Kohli说。「ProteinMPNN是这种范式转变的另一个证明,从此我们可以为特定任务设计蛋白质」。「这仅仅是机器学习在蛋白质设计中的一个开始。在接下来的几个月里,我们会努力改进这些工具,争取创造出更具动态性和功能性的蛋白质。」Baker说。https://developer.aliyun.com/article/1207985
1.探讨AIforScience的影响与意义:现状与展望以Chat GPT为代表的新一轮人工智能技术浪潮正推动人类社会全面变革,科学研究范式正加速转换,一场人工智能驱动的科学研究(AIforScience,AI4S)革命正在到来。分析了AI4S的基本概念和特点,从数学、物理、生物、材料等角度简要综述了AI4S的发展现状。大力发展AI4S对提高国家竞争力、发展社会经济、加强技术储备都具有十分重要...https://wap.cnki.net/touch/web/Journal/Article/ZNJS202301001.html
2.31w赛题奖金!当AIforScience撞上“先导杯”,会擦出什么样的火花...基于这一背景,一年一度的比赛盛事第三届“先导杯”计算应用大奖赛(以下简称“先导杯”)利用其“明星赛题”——开放应用,以AI for Science为主题,旨在吸引各领域学科人才应用AI理论工具解决学科问题。 大赛专家咨询委员会专家们认为,AI for Science进入“先导杯”开放应用赛题,有望为鄂维南院士所期待的“产研共同体...https://blog.csdn.net/Datawhale/article/details/125230238
3.降低AIforScience门槛实现生命科学领域新突破而如今在前沿科学研究中的AlphaFold2模型则是人工智能(AI)应用的另外一个标志,它因展现出AI for Science的巨大潜力,而受到了各界人士的青睐。 AlphaFold2助蛋白质结构预测,树AI for Science新高度 蛋白质是组成人体细胞组织的重要成分,对蛋白质三维结构开展有效解析与预测,可为生物学、医学、药学乃至农业、畜牧业等行...https://www.xakjgzz.com/news_show.rt?contentId=4443&channlId=32
4....围绕科创中心建设举行专题协商座谈会钱锋就AIforScience...建议:聚焦上海重点产业高端化、智能化、绿色化发展的重大需求,部署AI for Science市级科技重大专项,重点布局分子与过程工程、生命科学与工程、材料与原子制造工程等领域的AI for Science创新;建设AI for Science大科学基础设施,重点攻关面向AI for Science的物理建模、智能算法、高性能计算等通用研发工具,赋能传统大科学...https://www.sh93.gov.cn/detailpage/ywdt-0f651a3d-875f-4416-a1c8-8aa5bd8dd35f.html
5.Seamless值得注意的是,该工具完全免费,每用户每天可生成20篇文献综述。 Seamless – AI文献综述生成器工具,能够根据论文描述起草文献综述 Seamless官网打不开的几种可能原因及解决方案 如果你经常无法打开"Seamless官方网站",可能有以下三种原因。这里有一些解决方案: https://pidoutv.com/sites/11225.html
6.火山引擎AIforScience研讨会与Bio11月12日,以“AI 创引,科学新境”为主题的2024年火山引擎 AI for Science 闭门研讨会暨第二届 Bio-OS 开源开放大赛颁奖典礼在广州成功举办。百余位来自科研、生信、教育、医疗、AI 等领域的企业领导和专家学者们汇聚一堂,聚焦 AI for Science,共同探讨了如何利用 AI 进https://www.zgswcn.com/news.html?aid=230467
7....仪式暨人工智能与社会研究AI4SR(AIforSocialResearch)(2023)学术...复旦提出AI for Science的总体战略,希望发挥科学智能的“发动机”作用。本次学术研讨会既是“社会学学科周”中极为重要的一场活动,也是哲学社会科学学科对接学校的AI for Science总体战略的有效举措。希望复旦师生拥抱科研新范式,踊跃学习和参与开发新工具、新方法、锻炼“AI+创新”能力,积极投身这场重塑人类知识边疆的...https://www.cssn.cn/skgz/bwyc/202311/t20231103_5694802.shtml
8.论文解读人工智能时代的科学发现腾讯云开发者社区然而,这一显著的发现前景也伴随着“人工智能对科学”(AI4science)这一新兴领域面临的重大挑战。与任何新技术一样,AI for science的成功取决于论文将其整合到常规实践中,并理解其潜力和局限性的能力。人工智能在科学发现中被广泛采用的障碍包括发现过程中每个阶段特定的内部和外部因素,以及对方法、理论、软件和硬件的...https://cloud.tencent.com/developer/article/2338937
9.2023IDC易贸新药研发影响力大会会议频道·AI与大数据驱动的下一代蛋白工程 陈闻涛,平台研发主管,MLAB ·AI技术与实验结合加速生物药发现 赖力鹏,联合创始人、首席创新官,晶泰科技 ·AI for Science新范式驱动药物研发新工具与新流程 孙伟杰,创始人兼CEO,深势科技 ·AI驱动蛋白设计赋能抗体发现 https://www.medvalley.cn/activity/1112.html
10.mindscience:MindScienceisscientificcomputingkitsfor...MindScience是基于MindSpore融合架构打造的科学计算行业套件,包含了业界领先的数据集、基础模型、预置高精度模型和前后处理工具,加速了科学行业应用开发。 AI+科学计算 将AI与科学计算相结合,即AI+科学计算,是指利用人工智能技术如机器学习、深度学习等,对科学难题进行实计算和分析。这种结合使得科学计算不再局限于传统的...https://gitee.com/mindspore/mindscience/
11.AI撬动科研范式变革鄂维南告诉科技日报记者,新一轮科技革命中很重要的一点,就是科学研究从“小农作坊”模式向“平台科研”模式转变,AI for Science正是推动“平台科研”的主要动力。AI技术不仅极大提高了科研活动中共性工具的效率和精度,更重要的是,它可以助力建立一个由产业需求推动科研的有效体系。 http://m.cnhubei.com/content/2023-03/28/content_15627888.html
12.Seamless:AI驱动的科研文献综述生成器AI科研 7 个月前 文章目录 Seamless是什么 Seamless的主要特点 Seamless的应用场景 Seamless是什么 Seamless是一个专为科学研究设计的工具,它利用人工智能技术帮助研究人员快速撰写文献综述。用户可以输入论文描述,Seamless将基于真实论文生成文献综述。该工具搜索Semantic Scholar数据库中的科学论文(覆盖大多数科学主题),并将...https://www.aihub.cn/tools/science/seamless/
13.GPT为了应对这些挑战,团队提出了名为 SciGuard 的大语言模型驱动的 agent,帮助 AI For Science 模型进行风险控制。 SciGuard 与人类价值观对齐,并且加入了各种科学数据库与监管(危险化合物)数据库等。 并且,该 agent 可以使用各种科学工具和 AI4Science 模型来提供额外信息,来辅助 SciGuard 对用户意图进行判断。 https://www.ithome.com/0/740/081.htm
14.2024年诺贝尔化学奖授予AlphaFold:开启AI+Science新纪元物理学、化学、生命科学与人工智能的协同合作推动了各领域的突破性进展,充分展现了AI在跨越传统学科界限中的巨大潜力。这些奖项不仅标志着一个新时代的到来,更暗示着AI在科学研究中正逐步走向核心地位。在推动科学创新的过程中,AI将持续发挥关键作用,AI for Science 正在带来科学发展的新纪元。https://www.thepaper.cn/newsDetail_forward_28982526
15."KAN"AI4Science?「下」在接下来的部分,我们提出了一种新的“AI for Math”范式,这种范式不包含在Deepmind的论文中,我们旨在使用KAN的无监督学习模式发现结构不变量中的更多关系(除了签名)。无监督学习正如我们在第4.2节中提到的,无监督学习是一种更有前景的设置,因为它避免了输入和输出变量的手动分区,这些变量可能有着组合多种可能性。https://maimai.cn/article/detail?fid=1831393348&efid=clF3pnR4SmAcQ6C5xbGDRw
16.人工智能AI for Science 的新成果、新动态、新视角—— 由DeepMind 拆分的 AI 药企首次达成制药合作,价值 30 亿美元 微软协助科研人员发现 3,200 万种新电池材料 网传TikTok 在美国各地招募计算生物学、量子化学、分子动力学和物理方面的人才 科大讯飞拟分拆医疗业务在港交所主板上市 ...https://segmentfault.com/a/1190000044554108
17.麻省理工重磅《Science》:基于AI的逆合成路线设计,这台机器人全...8月9日,最新一期《Science》杂志发表了来自美国麻省理工学院(MIT)研究人员一篇题为“A robotic platform for flow synthesis of organic compounds informed by AI planning”的论文,文章描述了一种结合AI设计合成路线和机器人执行的自动化合成平台,该方法基于美国专利和Reaxys数据库中的反应训练了人工智能算法,能够为给...http://www.vastprotech.com/news_detail/id/142.html