3月23日,在机器之心AI科技年会上,IDEA研究院工程总监、AI平台技术研究中心负责人谢育涛发表了主题演讲《工欲善其事必先利其器——AI创新的工具》。
以下为谢育涛在机器之心AI科技年会上的演讲内容,机器之心进行了不改变原意的编辑和整理。
在中国,“数字经济”这四个字已经第五次出现在《政府工作报告》,这是非常重要的一个话题。在我看来数字化分为两个部分:一个信息化、一个智能化。浅层的数字化就是信息化,深层的数字化就是智能化。
智能化可以说现在正逢其时,AI在整个国民经济发展包括工业、金融业等起了很大的作用,假如没有AI技术,数字经济只是一个信息化的技术,它只有蛮力没有智商,而这个发展是很受限制的。如果数字经济中没有智能化的需求,那么产业潜力也无法得到挖掘,对于AI技术而言,各位研究人员、专家学者也只能永远停留在象牙塔里,技术不能落地。
那么中国在AI研究方面如何?根据研究机构发布的数据来看,中国在人工智能领域论文的全球占比文(下图左)从1997年的4.26%,增长到2017年的27.68%,遥遥领先于其他国家。同时中国的高被引论文数量在2013年超越美国成为世界第一。此外我们从清华大学AMiner团队发布的AI2000学者榜单中可以得出(下图右),在人工智能20个子领域入榜学者所在国家分布(人次),从分布来看基本上还是美国、中国竞争激烈,除了多媒体和物联网子领域中国稍微领先一点,美国在很多领域领先中国。
总体来说,中国的AI科研现状,论文数是第一,优秀的AI学者量是第二,科研人才总量第二,杰出人才占比比较低。根据2017年的数据来看,中国的人工智能人才大概是18000多人,占世界总量的8.9%,仅次于美国13.9%,位居第二;在企业人才投入方面是高强度人才投入量,基本上集中在美国企业,中国只有一家公司华为进入了全球前20。
第三个数字是高H因子,它用来评价科研人员的学术影响力,这是一个非常重要的指标,这份报告统计了前10%的高H指数学者,中国杰出人才977人,大约不到美国的五分之一,这个差距是比较大的。我们现在在H指数方面大概世界排名第6,杰出人才比例较低。
我们不禁要思考,如何提高科研人员的研究水平?大家有不同的解决方案,我要讲的是工欲善其事必先利其器,做科研最好有一些好用的科研工具,但现实情况是我们没有特别好用的工具,科研人员日常使用的工具相当缺乏,例如读论文、写论文、发表论文、评审论文、管理文献、开会等等都缺乏相应的工具。读论文时,大部分研究者采用比较原始的方法:打印论文,用笔在上面做笔记;写论文也是如此,虽然我们有一些论文编辑工具,但不是很理想;发表论文、评审论文、管理文献、开学术会议等也没有好用的工具。以上种种都是科研人员每天都会遇到的,可是今天的工具是缺失的。
第二个缺乏交流平台「独学而无友,则孤陋而寡闻」,如果我们读论文时没有可以交流的人,是非常痛苦的事情,例如我们读论文时经常会遇到问题,这些问题或是公式、或是推论等,一般来讲我们没有可以随时咨询的人。在互联网如此发达的今天却很难找到一个专注于学术的社区。如果有这样一个社区可供大家提问、讨论,且专注于学术内容,对很多研究者来说是非常好的事情,可是今天这样的学术社区是缺乏的。
第三个学术成果传播不畅,现在已经有很多搜索引擎,大家用的比较多的如百度学术、知网等系统,这些基本上满足了我们找论文的需求。但问题是论文太多,不知道该读什么论文,从哪里开始读起,比如说今年CVPR2022收录了2067篇论文,这个数字是非常庞大的,想象一下怎么可能把这些论文都读完,甚至找出哪些论文需要阅读都是很困难的事情。出版商也没有特别好的工具让读者更好地获取知识,更方便传播的知识。
做科研需要工具,可是工具是缺失的。我在这里介绍一下我们做的一些简单尝试,去年我们尝试打造一个论文阅读社区。我们做这个社区主要解决三个问题:
第二个论文本身是难读的,全球每年都发表数以百万计的论文,然而多数论文并不好读,尤其是对于母语非英文的研究人员来说难度更大。
第三个社区对学术研究的影响力不足,学术社区的缺失导致社区对学术研究的影响力不足。
第二个精读论文,用户可以进入PDF文件进行详细的阅读,也可以进行在线笔记,沉浸式阅读体验,实现边读边记。
我们从读论文开始打造一个学术讨论社区,这是我们想做的一件事情。
下面我将简单讲解一下部分功能,第一个是沉浸式阅读体验,当我们打开PDF阅读论文的时候,就进入了我们的论文超级阅读器。我们会用一些自然语言处理技术解析PDF本身目录解析就是你文献的目录呈现给读者便于跳转。引用解析则是对文中引用文献索引的解析。
第三个划词翻译,目前绝大多数论文是英文的,对中国学生、学者来讲还是有障碍的,划词翻译即读者划定单词即可翻译成中文,方便阅读。文字截图可以做笔记、可以做摘要,还可以做全文检索,能够让读者更快、更好地读论文。
接下来展示经典十问,我们IDEA创院理事长沈向洋博士说过「Youarehowyouread」。
我们可以这样理解,阅读的过程就是作者编码的内容如何能够被读者顺利解码,信息被读者解码的过程就是阅读的过程,因此解码过程就是形成自己认知模型的过程,所以「Youarehowyouread」你怎么读就定义了认知模型。沈向洋博士根据多年在研究界、工业界的经验,总结了经典十问帮助大家读论文,如何通过回答这些问题真正的理解论文,带着问题去阅读论文可以帮助读者有方向性的解码作者思想。
我们在AI时代如何从科研大国到杰出人才大国?我希望有更多的利器助力科研人才。我也在思考整个学术生态是不是有一些我们可以做的事情,在各个环节是不是可以提供更好的工具,这样的工具对于每一个人都有帮助。我们将来做学术一定会跟整个生态打交道,这个生态的核心就是一个社区,这里面有学生、老师、作者、读者,论文是传递知识的一个桥梁,这样的社区和生态的其他部分有着千丝万缕的联系,研究人员在科研机构里面在做研究课题,科研机构有上课、读论文、写论文,研究人员还要发表论文、投稿,各种评审工具都有待完善。
AI时代科研打头阵,为数字经济的产业智能化不断创造新的增长空间,我想,工欲善其事,必先利其器,我们有必要重新思考整个学术生态,我也希望我们能够打造更多的工具助力科研的发展。