「传统研究方法高度依赖于科研人员自身的特征和问题定义能力,通常采用小数据,在泛化能力和拓展能力上存疑。而AI研究方法则需要引入大规模、高质量数据,并采用机器学习进行特征抽取,这使得产生的科研结果在真实世界的问题中非常有效」。
机器学习理论于上世纪90年代便已经建立,尽管经历了多年的迭代发展,但从该领域目前的backbone来看,机器学习仍然没有脱离传统统计学的范畴,这也是AI为人所诟病的重要原因之一,即统计系统缺乏可解释性。
相信大家对于我们公司的名字并不陌生——OpenBayes贝式计算,除了人们熟知的利用贝叶斯公式来完成自动化系统的复杂运算外,我们也认为机器学习就是统计学中的贝叶斯学派。
其中,监督学习在工业应用和科研领域更加可靠。尤其是在科研领域,更加依赖于被标注的、结构化的数据,通过对这些数据集进行多种模型结构式的建模,来解析具体的科研问题。在这个过程中,我认为科研的本质是通过统计、解析研究人员收集的研究样本,从而反应真实世界中的问题。
不久前,AlphaFold摘冠诺贝尔化学奖,引发大家的广泛讨论。其实AlphaFold近几年一直在迭代升级,超越人类极限,实现了对人类蛋白质组的相对准确的预测。AlphaFold1始于2018年,在第13届CASP(CriticalAssessmentofproteinStructurePrediction)中,准确地从43种蛋白质中预测出了25种蛋白质的结构。而同组比赛中获得第二名的参赛者仅准确预测出了3种。
到2020年,GoogleDeepMind将其升级为AlphaFold2,在蛋白质结构预测方面的准确率能够达到94%-98%,对制药领域起到了参考性意义,甚至对冷冻电镜等观测手段能够实现85%-90%以上的替代。同时,当人类掌握了蛋白质结构的奥秘,那么在抗体和生物制药的研究上,也就掌握了最为有效的即时性工具。相信这也是AlphaFold能够荣获诺贝尔奖的重要原因。
除了AlphaFold的案例外,我还想介绍一下与贝式计算合作的国内知名研究者,北京大学人工智能研究院施柏鑫教授团队发表的论文「EventPS:Real-TimePhotometricStereoUsinganEventCamera」,已经入选CVPR2024最佳论文。
该研究通过事件触发与表法线建立关联的「零化向量」信息,利最优化与深度学习分别实现了光度立体表法线估计的求解,配合研的速转台所搭建的数据采集系统,和经过GPU优化的算法,实现了超过30帧每秒的实时表法线重建。
*论文地址:
总结来看,基于二维信息的三维信息模型重建一直是学术领域的研究重点之一,因为无论是从宏观还是微观的角度,人类都有对真实世界的理解需求。而AlphaFold便是将一维的化学、生物信息在空间中进行重构,EventPS是通过事件相机来还原物体的三维轮廓。
上述介绍的两个案例展示了机器学习方法推动前沿研究多带来的价值,针对于此,借助贝式对科研群体的观察,我总结出了一个简单的公式:规模数据X模型结构=AI科研成绩-传统研究。
具体而言,在科研过程中,将规模化的数据应用于有效的模型结构上,能够起到「乘积」的作用,能在任何一个工业领域的落地研究课题上大幅超越传统方法,这便是AI驱动的科研能够在近两年内实现了2-5倍增长的重要原因。
而我们提出的公式之所以是乘积而非加法,核心原因在于单独依靠某一个参数的增长,其所得到的效果都不是很明显。如果保持模型结构不变而一味地增加数据量,则可能会产生边际效应,导致性能提升困难;同样地,当数据规模一定时,模型参数也并非越大越好。
如下图所示,如果使用线性函数对一组数据进行二分类任务,可以看到一元的线性函数有效性很有限;如果我们上升为二元函数,能够看到,虽然有部分样本错误,但整体实现了泛化;进而,如果在数据不变的情况下,继续提供更高维的函数或更大参数规模的模型来拟合数据集,所得结果的拟合度和预测准确度是非常高的,但同时也会导致过拟合问题,使得模型丧失在该数据集之外的泛化能力。
所以,数据规模并不是越大越好,模型复杂度也不是越高越好。
近年来,业界激烈探讨的ScalingLaw也提到,只有当数据规模和参数规模都同等增大时,模型loss函数的下限,也就是其预测的失误率将会下探到一个较低水平,这个水平是较小规模的数据和较小参数规模的模型无法实现的。
聚焦到科研领域,通常还是使用监督式学习的方法来推动科学研究。
监督式学习的本质是抽样调查,通过科研人员手中的数据集和样本来尝试解决真实世界的问题。当数据集规模与模型规模、复杂度同时扩大时,本质上是学习样本变得更大了,研究人员得以在更大规模想样本中抽取更多特征。这便是机器学习的优势所在,即将定义特征与抽取特征的工作从研究者手中解放出来。
其更高层次的价值在于,当数据集中的特征过于复杂时,人脑很难抽取其中的主要特征、并分配相应的权重,但机器学习能够自动化提取特征,能够很好的解决大规模样本的特征提取,而越大规模的样本和模型结构越能拟合真实世界的问题。
不妨大胆推断,当机器学习变得更加成熟后,科研人员的主要工作就变成了定义问题、提升并提纯手中的数据集规模,以及选定合适的机器学习模型。这也将带来一个划时代的创新,工业研究、理工科研究能够像工厂制作产品一样以流水线的形式进行生产。
贝式计算相信,随着AI在科研领域的落地和新范式的不断推广,人类正面临一个类似于寒武纪时代的大爆发,几乎每一个工业、理工科研领域的前沿都会被推进。
我们认为,机器学习对科研领域的促进将体现在两个方面,其一是使机器学习对世界进认知/感知,其二是使机器学习对世界进推演。
其中,在感知侧最大的推动来自于机器学习方法对世界进行超采样。
人类感知世界主要依赖眼耳口鼻等感官,在计算机领域可以理解为使用传感器和大规模数据记录来对世界进行采样,而当人们拥有更大规模的数据集后,使用机器学习的方法就可以对采样的精度和规模进行成比例的扩增,这也是使用机器学习认知世界的本质。
换言之,机器学习加强了对世界的感知,从而帮助人们对世界的本质展开研究。
举例来看,中科院、上海交通大学等高校、研究机构,已经开始利用机器学习处理质谱和光谱数据,例如使用机器学习对光谱进行建模,从而提高地底矿物发现的准确率。
总结来看,时序数据能够表达事物的前沿发展运行规律,那么,我们自然可以使用机器学习来拟合大量的数据,进而根据前序输入的数据来推演后续输出的数据。
可以看到,从认知到推演,这是机器学习在科研领域最有可能批量产出科研结果的两个方向。
在此,我将传统研究方法与AI的研究方法进行了对比。
传统研究方法高度依赖于科研人员自身特征和问题定义能力,只采用「小数据」。而一旦数据量较小,研究成果在工业领域或更广泛的人类社会中进行拓展应用时就会存疑。
最后为大家介绍一下OpenBayes贝式计算,我们是国内相对领先的人工智能服务商,在集群构架、编译器和模型结构领域拥有丰富的创新成果与产品。目前OpenBayes的模型构件系统已经被超过百家企业和研究机构所采用,进行私有部署。同时,我们的线上公开服务注册用户已经超过17万,其中大多数是终端工程师及科研领域的学者,重点用户覆盖了国内的双一流985、211高校的工科和工业研究机构,例如清华大学、北京大学、天津大学、上海交大等等。
我们面向AIforScience提供的工具集能够端到端覆盖人工智能模型研发的全生命周期,将全球的开源数据集和大量AI、HPC领域的教程,同时还预置了开源和私有模型,将科研领域的要素整合到一个集群软件中,这也是我们公司的主要产品——OpenBayes。我们将其部署在NVIDIA及其他国产芯片的计算集群中,为科研人员和团队提供开箱可用的服务,帮助科研人员在模型构建、模型推理、工业软件计算等方面实现一站式衔接。
整个套件能够能够将模型训练成本降低到常规AI构建此水准模型成本的8.25%,例如,过去需要数千万集群才能完成的计算,基于OpenBayes的软件成本能够降低至数十万。
也正是基于对AIforScience领域的深度赋能,我们观察到,目前在科研领域,仍然有大量AI仍未触达、有待开垦的领域,我们也相信,科研领域的寒武纪时代即将到来,几乎所有的工业研究、理工科研究都将落地AI范式及方法。