何帆:利用大模型激活数据要素价值三六零知识库

“2024中国高新技术论坛”于11月14日在深圳举行。三六零数智化集团首席产品官何帆出席并演讲。

何帆建议将数据要素和大模型联合起来在企业内部落地过程中,按以下几个步骤走:

一是汇聚各种多元数据,在企业内部构建各种业务系统、第三方系统、SaaS应用,已经存在了各种各样数据,同时还有非常多非结构化数据,比如之前有一家航空公司去维修飞机各种各样的操作手册或者维修手册,分散在各个工程师的电脑里、服务器里,每一个工程师掌握的知识不一样,而且这些非结构化数据分散在各地。建议第一步做集中汇聚,进行集中管理。连接模型,建立企业的知识中枢。

二是关联知识库,企业内部已经形成各种各样的知识库,没必要再把它完整的训到模型里,但需要用搜索引擎连接这些知识库,用RAG看到底有哪些内容,不管是结构化还是非结构化,甚至我们尝试把非结构化数据变成结构化数据再做后面的RAG。

以下为演讲实录:

何帆:大家好,我是三六零的何帆,我的议题主要是目前我国主推的数据要素市场如何靠大模型来激活数据要素价值。

可能大家心目中三六零是一家安全公司,推出的免费杀毒模式,靠360安全卫士积累了大家看到的,比如目前国内发现的大概有57个国家级黑客组织,包括美国的中情局、国安局都在这57个国家级黑客组织中,这57个中三六零发现了55个,那三六零是依靠什么来达到这个效果和能力呢?安全背后是我们对大数据的分析和人工智能技术的支撑来完成的。现在我们不但把安全拿出来商业化,更多的希望把人工智能应用和技术以及对大数据的分析技术拿出来,在前场做商业化,赋能政企单位。

从目前背景看:一是我国对数据要素市场的大力推动,频繁的出台了大量政策来支撑,以及像各省数据局、数据交易所的成立,大力推动数据要素市场;二是我国对人工智能提出了新的战略高度,要大力发展人工智能领域,尤其在大模型领域的发展。

在这两个背景下,“数算智”是一个新的引擎,来达到一个新的新质生产力,而且通过各种各样的事件包括OpenAI发布的各种各样论文能看到高质量的数据集对于大模型的质量是非常重要的,并且大模型的运算后期形成一个反哺的过程。

从人工智能价值落地上,数据和大模型是非常重要的两个因素。在ToB场景落地时,比如对于个人支持的理解、企业支持的理解慢慢用大模型做融合,达到下一步的效果。

人工智能、数据要素这两个领域大的国家要大力推动背景下,希望用人工智能激活数据要素的价值,靠数据要素再反哺人工智能能力的推动。

在这个背景下我们提出“存智一体”思路,“存”里,希望把大量企业数据,结构化数据、非结构化数据集中进行存储,用“智”完成价值转化。我们自研了自己文档类型的大模型,包括OCR能力、版式识别能力,让大模型搜得到并且答得准。

在这个架构下推出一系列应用,包括我们自己的应用、企业内部应用、智能应用平台,来完成整个架构的搭建。

在这个前提下做了一系列实践,我们建议将数据要素和大模型联合起来在企业内部落地过程中,按这几个步骤走:一是汇聚各种多元数据,在企业内部构建各种业务系统、第三方系统、SaaS应用,已经存在了各种各样数据,同时还有非常多非结构化数据,比如之前有一家航空公司去维修飞机各种各样的操作手册或者维修手册,分散在各个工程师的电脑里、服务器里,每一个工程师掌握的知识不一样,而且这些非结构化数据分散在各地。建议第一步做集中汇聚,进行集中管理。连接模型,建立企业的知识中枢。今年上半年三六零开的ISC大会上,我们的创始人周鸿祎先生带领国内16家领先大模型公司集成了大模型生态,并开发了AI助手功能,我们的底座平台已经连接了国内最主流的16家大模型,上层智能应用可以连接底层各种各样的大模型,并且API完全打通。

关联知识库,企业内部已经形成各种各样的知识库,没必要再把它完整的训到模型里,但需要用搜索引擎连接这些知识库,用RAG看到底有哪些内容,不管是结构化还是非结构化,甚至我们尝试把非结构化数据变成结构化数据再做后面的RAG。

在这个五步曲下我们已经完成哪些实践?这是我们在各地政府完成的,把政务关键数据用模型赋能,从“万事通”变成“政务通”,比如需要对领导完成信息的角色、纵览,对外完成政务问答等等,比如一些政策咨询。我们在一个政务单位做政策问答,比如小升初的政策是什么,能读哪些学校,快速能给公众一些非常准确的答案。

教育领域,非常私有化的数据通过模型赋能,可以在教学上有很多场景,比如智能交互以及多媒体教育当中通过多模态对它进行更多赋能。

制造领域,比如我们在某个航空公司的案例,把工业维修SOP生成,比如标准操作步骤用模型生成,生成后由工程师完成后续操作,并且在操作过程中可以跟模型进行多轮交互。我现在遇到的飞机故障应该怎么样维修,维修具体的描述在我维修手册的哪个章节,都有非常准确的定位,同时它跟其他的IT系统交互后,可以快速完成工单创建和完结。

最后稍微讲一下目前三六零数智化部分的核心能力。

我们现在在全国范围内做了大概30多个数智化产业基地,包括城市大脑。我们跟当地政府合作已经完成人工智能各种各样基础设施的落地,我们把生态大模型、开源模型放过去,上层大模型LLMOps平台以及对接的各种各样应用,这个模式落地后我们提供给当地的委办局和企事业单位做初级应用,在此基础上有些增值付费服务出来。

大模型领域,我们是大模型标准联合组组长,是目前大模型标准编写单位之一,所以我们现在参评的大模型标准包括国标13项,行标3项,团体标准4项等等。

三六零大家熟知的一直是网络安全领域,多数时是外交部发言人说我们针对国家地震局或者西工大等关键技术设施,来自国外的黑客组织发起的攻击。但刚刚也谈到我们在人工智能的深耕才达到这个效果,2010年开始在人工智能领域耕耘,2015年成立了我们自己人工智能研究院,一路走来,在全国范围内包括很多技术领域上已经有非常多沉淀。

可能今天很多嘉宾都谈到一个共识的话题,对于模型而言,高质量的数据集是非常重要的元素。三六零本身是一家互联网公司,依靠C端免费模式帮我们积累了大量高质量数据集,同时有大量C端应用,比如360安全卫士、360浏览器等等,帮我们积累了大量高质量数据,并且根据最新数据,三六零的AI搜索现在也是web访问量排名第一的搜索引擎,在搜索引擎领域也帮助我们积累了大量高质量数据集,帮我们从模型训练以及对数据应用理解上积累了大量工程化的能力。

最后一部分是安全。

本身三六零是一家安全公司,三六零发布的各种各样应用包括大模型应用在内,被国内外大量网络安全爱好者、黑客首当其冲的作为测试目标。如果你发布一款应用,可能会被大量人拿来做测试,看能不能攻进去。在这个领域我们也积累了非常多经验,所以我们现在提出一个比较先进的理念,用大模型保护大模型,对大模型各种各样内容的输入输出,需要用大模型判断它的合理性,这个会不会给我造成攻击,它的合法性需要做检测,输出的内容是不是合规,会不会造成信息泄露。我们之前看到三星内部的数据泄露,都是把高质量数据放到大模型以及大模型应用过程中带来的数据隐私问题、数据泄露问题。

我们提出“以模制模”可控问题、内容安全、幻觉问题、提示注入攻击、数据安全。非常强大的安全大模型,它能够保护到通用或者数字化大模型各种各样的应用。

THE END
1.常识难得这是非常宝贵的常识,对政府、企业和社会个人都是非常重要的!于2024年9月。 芒格先生曾说过,常识是最稀缺的认知。违背常识会付出代价。所谓的常识通常也是由这些代价反证出来的。所以对常识的讨论总还是有价值的。这里我来谈谈几条常识,也听听大家的意见。 1.现代化是市场经济和现代科......https://xueqiu.com/8892765192/313266131
2.权利和信息不属于稀缺资源。点击查看答案https://www.netkao.com/shiti/827103/3103538vvx5m8a84e.html
3.资产评估权利状态不同价值不同(一般而言资产的所有权价值会高于使用权价值) 即使同样的资产载体,可能会因为所赋予权利的不同,表现出不同的经济价值。 资产的所有权和控制权具有排他性,这是界定资产的依据。其他主体要取得相关权利就要付出相应的代价。 资产评估中的资产不应仅以所有权为界定依据,应当以经济资源控制权为依据...https://blog.nowcoder.net/n/6c03eb14fe1e4b538e9196ca77db8f12
4.2019年江苏公务员考试行测真题及答案(A类)7、下列不属于《中华人民共和国监察法》所规定的监督对象的是 A.某居民委员会的主任 B.某国有企业工会的主席 C.某农民专业合作社的理事长 D.某省属高校学报的主编 8、下列情形中,公民基本权利未受侵犯的是 A.小学生王某学习成绩很差,其父直接让他辍学去工厂上班 ...http://www.jsgkw.org/2020/0920/47907.html
5.经济学:资源经济学考点巩固(考试必看)考试题库16、问答题 资源配置概念,影响影响资源配置的因素主要有哪些? 点击查看答案 17、判断题 污染物排放量越大,边际治理成本也越大。 点击查看答案 18、问答题 简答效用价值论的主要观点? 点击查看答案 19、问答题 资源稀缺是指? 点击查看答案 20、单项选择题 下列选项中不属于自然资源基本特征的是() A、整体...http://www.91exam.org/exam/87-1076/1076585.html
1.清华大学教授程啸:个人数据经济利益的法律保护澎湃号·政务企业的数据财产权不应建立在剥夺自然人对个人数据的经济利益之基础上。个人的同意或许可不会如同个人出售有体物那样导致权利转让的法律效果,作为人格权益的个人信息权益,是不得放弃、转让或者继承的。个人可以撤回同意或者解除个人数据许可使用合同,个人信息权益始终对企业数据财产权具有制约作用。由于个人信息权益属于人格...https://www.thepaper.cn/newsDetail_forward_29350704
2.国考倒计时18天!来做做言语理解真题练习因此,在尊重知识产权和不违背版权法的前提下,增强学术资源的公共性,保障学术资源的无障碍传播,不仅是推进科学研究的基本要求,币是尊重和保障公众信息权利的体现。 这段文字意在强调()。 A.知识产权保护推动了现代学术发展 B.应逐步增强学术资源获取的开放性 ...http://www.cai58t.com/kaoshi/gongwuyuan/477266.html
3.权利和信息不属于稀缺资源。权利和信息不属于稀缺资源。 A. 正确 B. 错误 如何将EXCEL生成题库手机刷题 如何制作自己的在线小题库 > 手机使用 分享 反馈 收藏 举报 参考答案: B 复制 纠错举一反三 根据《中华人民共和国合同法》,合同的变更需要: A. 双方当事人协商一致 B. 单方决定 C. 第三方介入 D. 法院判决 查看完整...https://www.shuashuati.com/ti/0d72f653b87f4f26b68cf0590f41c068.html?fm=bd288df959820cd393d2486745a7ccf038
4.数字资讯公共数据授权运营中的权责分配鉴于公共数据具有资源属性,有代表性观点将其类比有限自然资源开发利用或公共资源配置的情形纳入特许范畴的做法也值得商榷。特许是将本来属于国家或者某行政主体的某种权利(力)赋予私人的行政行为,其主要功能是分配稀缺资源,一般有数量限制。但公共数据资源上承载的使用利益由全民共享,不属于国家或政府的权利。通过扩张解释宪...https://pc.sclztv.com/news/154073
5.2022年广东省专业技术人员继续教育公需课《数字化转型与产业创新...21、下列不属于《网络安全法》规定的网络运营者一般安全保护义务的是 正确答案:D、纳入关键信息基础设施统一管理 22、___ 推出《开放政府数据法案》以让国民享受更好、更多的政府服务。 正确答案:A、 美国 22、“东数西算”中利用的东部优势资源主要是 正确...https://www.gdjxjy.com/html/xinwen/ziliao/2565.html
6.2021创新创业基础(李家华)100分答案创业者的价值不包括(判断题,1.0分)权利和信息不属于稀缺资源。 A. 对 B. 错 我的答案: 错 1.0分2. (判断题,1.0分)谋生型创业者往往是因为迫于生活的压力或是为了使自己的生活条件有所改善才决定创业。 A. 对 B. 错 我的答案: 对 1.0分3. (判断题,1.0分)大学生创业或者作为初创公司时,不应该有太严格的职位划分。 A...http://www.zzfmdn.com/article/733689
7.2015年经济师《中级经济基础》全真模拟试卷(含答案)一16. B 根据赫克歇尔一俄林理论,各国应该集中生产并出口那些能够充分利用本国充裕要素的产品,进口那些需要密集使用本国稀缺要素的产品。该理论认为,各国的资源条件不同,是国际贸易产生的基础,从而进一步解释了比较优势理论,使得比较优势理论更加完善和更加具有说服力。 https://www.hqwx.com/web_news/html/2014-11/201411201037483939.html