浅谈开源AI基本理念技术开发的底层原理人工智能

预测未来绝非易事,这里提出的不少预测也许永远不会实现,甚至朝着截然相反的方向前进。但我认为这样的思考仍有重要意义,将帮助我们主动适应不断变化的新世界。随着整个时代的快速推进,这种设想并筹划新阶段下新形势的能力将变得越来越重要。

不过世界上还有更多积极接纳AI进步的地区,开源AI很可能会在交换价值低但使用价值高的服务上(即可由AI执行的相对简单服务)在这里蓬勃发展。与之对应,那些模型性能的微小改进即可对应价值显著提升的服务,将迎来截然不同的经济激励形式。对于此类服务,预计赢家通吃将继续占据主流,意味着更先进的AI系统将持续提供更多的剩余价值。

参与者之间的信息不对称可能是政府强制管控的结果(例如知识产权、许可、访问控制等);消解这种信息不对称需要采取政治行动,已非纯粹的技术手段所能解决。然而,技术本身同时也将削减因资源不对称所引发的信息不对称。

由于训练大语言模型(LLM)需要大量资源,所以预计“赢家通吃”类AI系统的开发和管理将首先由少部分闭源实体所主导。出于经济动机,这些实体会将模型权重和架构作为专有资产,严格保密能为其带来更强的盈利能力。

遗憾的是,这种资源限制导致研究人员、非营利组织和初创公司等小规模实体因无法承担高昂的能源成本,而几乎不可能从零开始训练自己的大语言模型。因此,目前大部分开源大语言模型均是对现有模型进行微调,这种方法成本更低且耗能更少。基于这样的动态,我们最明智的决策应该是保持开源AI在质量上始终具有竞争力,借此降低深度学习模型规模化训练和运行带来的成本。

稀疏激活张量

相反,必须借助新的技术和协议来实现社会经济权力的动态性转变。面对这个问题,我力推“稀疏激活张量”概念及其对等空间的协同作用。我们将在未来的工作中不断探索如何构建具备模型中立性的稀疏激活张量数据结构。

在本文中,我将简单介绍其基本理念、技术开发的底层原理,以及对开源社区及其他领域的影响。简单来讲,稀疏激活张量就是能够以稀疏方式检索并更新自身状态的数据结构。为了更好地理解其深层含义,让我们先从一个简单示例入手。

图一:什么是嵌入层。

嵌入可以通过数据库进行有效检索,无需将整个张量加载至内存中即可进行稀疏检索。

虽然一对一映射方法在单词等离散token情况下确有价值,但却无法在连续输入中正常起效。例如,一个28x2828x28的图像块中包含巨量潜在像素组合,根本不可能建立一对一映射的嵌入层。但我们将在后文讨论,使用多对一映射的方法同样能获得类似结果。嵌入检索和稀疏激活张量之间的逻辑联系也将变得显而易见。

考虑这样一个情况,我们有一个归一化矩阵WK,它由存储模式和一个归一化输入I组成(详见图二)。在I和WK之间执行点积,本质上相当于检查WK中的各列并确定哪个列向量与I更相似。所得到的K向量表示I和WK的每一列之间的余弦相似度。K得分越高,则表示输入与相应列之间的相似度越高。

图二:K中的值代表Wk的列与I的相似度。

图三:现代HopfieldLookup层。

与数据库进行类比,“稀疏检索”的概念相当于具有预索引的权重,无需遍历整个数据库即可实现记录检索(即已存储的模式)。然而,目前能利用向量数据库的transformer还仅限于在推理阶段执行近似kNN查找。换言之,模型训练阶段仍只能以算力密集方式进行,因此对应大量能源消耗。为了促进大规模神经网络的集体训练,必须将模型权重的同时更新转化为稀疏更新。通过设计这种包含稀疏检索和稀疏更新的神经构建块,我们将为开源AI社区做出贡献,克服资源限制导致的信息不对称问题。

“魂灵”的密码学证明

虽然这些系统实用性出众,但还缺少还原当前对等AI项目的一个关键组成部分:对抗环境中的无信任机制。要想在Petals这类系统中执行前向传播,就要求人们必须充分信任网络中的其他节点。换句话说,任何恶意节点都能返回实际上并非源自模型的输出。虽然这种局限性没有彻底击溃协作研究的前景,但的确已经阻碍了对等AI系统在现实世界中的广泛应用。

这就是稀疏激活张量发挥显著优势的第二个用例。除了能源效率更高之外,稀疏激活张量还具有必要属性,能够在对等AI网络中实现前向和后向传播的密码学安全。现在,让我们简单观察Merkle树数据结构,了解这一切是怎样实现的。

Merkle树是一种二叉树数据结构,用于安全验证列表中的值是否存在,且不必向另一方提供列表中的每个值。要创建Merkle树,列表中的每个值都须使用加密哈希函数进行哈希处理,进而产生叶节点。之后,通过哈希将这些叶节点组合起来形成非叶父节点。重复这个过程,直至抵达二叉树的根(详见图五)。

图五:Merkle树数据结构。灰色部分为叶节点,黑色部分为非叶节点。

为了确认Merkle树中是否存在某个值,这里要使用Merkle证明,其由一系列哈希值组成。使用Merkle证明对叶节点哈希执行哈希迭代,即可重建原始Merkle根(详见图六)。需要注意的是,Merkle证明的接收者必须已经拥有Merkle根的本地副本,否则无法完成验证过程。通过将本地存储的Merkle根与Merkle证明生成的最终哈希进行比较,接收节点即可验证某个值是否包含在用于创建Merkle根的值列表当中。如果两个哈希相互匹配,则可证明提供的值确实是原始Merkle树中的叶节点之一。请注意,Merkle证明的大小(即图六中的绿色哈希)按对数比例缩放,这样即使叶节点的数量很大,也能实现紧凑的存在证明。

图六:Merkle证明。为了证明初始值列表中存在H3,必须先用H4对其进行哈希,之后是H1,2,最后是H5,6,7,8(图中绿色部分),由此重新创建Merkle根的哈希值。

Merkle树数据结构和稀疏激活张量间的联系,取决于其潜在组合。Merkle树可以构建在稀疏激活张量之上,以稀疏方式实现对状态的检索和更新。在这里的示例中,张量的列向量作为Merkle树中的叶节点(参见图七)。

图七:使用稀疏激活张量的列作为叶节点所构建的Merkle树。

图八:现代HopfieldLookup层的“魂灵”密码学证明。假定Wk内I的k个最近邻为H1和H5对应的列。通过将H1与H2、H5与H6进行哈希,之后将这些生成的哈希与H3,4和H7,8进行哈希进行哈希,即可生成稀疏评分张量的Merkle根。之后,执行同样的步骤以生成Wv的Merkle根。

使用稀疏检索的Wk和Wv嵌入,以及所提供的Merkle证明,Alice即可生成密码验证的输出。特别需要注意的是,在实际应用当中,Bob不会以未压缩格式传输嵌入。相反,Bob会使用增量编码来压缩嵌入,从而显著减少所需传输带宽。此外,Bob不会为Wk和Wv中的各k个最近列/行向量发送单独的Merkle证明。相反,Bob会为Wk和Wv分别传输CompactMerkleMultiproof。最后,在使用稀疏激活张量的前提下,同样的技术也可应用在transformer自注意力步骤当中。

在OpenCybernetics,我们将稀疏激活张量的MerkleMultiproofs称为“魂灵”的密码学证明(CryptographicGhostProof,简称CGP)。我们坚信CGP将成为强大的构建块,并在未来的AI系统中发挥重要作用。相信在不久的未来,基于“魂灵证明”的神经活动将构成大部分互联网流量。由于每个AI系统都存在自己的“魂灵文件”,其中包含各个网络层的“魂灵”根,以及架构信息和前向/反向传播所涉及的操作,因此实体可以信任AI系统的输出来自正确模型。

CGP和“魂灵文件”的引入不仅给对等AI系统带来了新范式,同时也有助于培养透明度文化。将“魂灵”的密码学证明纳入AI交互的互联网协议后,模型架构和权重将无法被隐藏起来。“魂灵文件”能确保模型架构的透明性,而CGP则负责公开模型权重(因为每次执行前向传播时,都会以压缩形式共享一小部分权重)。这种技术转变将令人工认知成为一种共享资源,可供所有人访问和拥有。

一点反思

除了开放和免信任之外,CGP的介入还有望将AI和去中心化分类账融合起来,为自主AI系统的出现铺平道路。自治AI系统是一种对等AI协议,它利用的正是共识算法的无许可特性。这些协议不会改变分类账中的条目,而是传播其中的观点。为了确保整个系统有效运行并抵御DoS攻击,这些协议可能依赖于积分或货币等载体。这些自治系统的技术复杂性及其经济/社会影响,还有待在未来的工作中继续观察。

希望本文能激发大家对于AI和对等技术间协同效应的兴趣。我坚信未来几年内,AI和数据库系统的交叉领域将取得重大进展,特别是在稀疏激活张量方向上。此外,AI和对等系统的融合,以及稀疏激活的联想记忆网络的发展,无疑也将迎来显著进步。欢迎大家探索这些意义深远的主题,并为开源AI做出贡献。这份努力的意义不止于共享代码,更在于为全球社区赋能。

THE END
1.人工智能应用指南:全面解析AI的使用方法与技巧ChatGPT是一种基于GPT(生成预训练)模型的人工智能助手,可以依照使用者输入生成连贯、有逻辑的文本。其优势在于能够快速生成大量文本,节省人力成本。 2.1.2 ChatGPT的利用方法 - 注册并ChatGPT平台; - 熟悉界面和基本操作; - 输入难题或需求,等待系统生成回答; ...http://www.slrbs.com/jrzg/aizhishi/295578.html
2.AI教程入门:轻松掌握人工智能基础知识设想一个场景,你正在厨房忙碌,突然需要查询某个食谱。这时,一个智能语音助手能够通过你的语音指令,快速搜索并提供所需信息,无需你离开厨房动手操作。这是一种AI在日常生活中应用的范例。 AI基础知识:定义与分类 人工智能的基本概念 人工智能可以定义为:一门研究如何使计算机具有智能行为的学科,其目标是使计算机能够模...https://www.imooc.com/article/347845
1.AI创建全解析:从基础入门到高级应用,全面掌握人工智能开发技巧创建路径的基本步骤: 1. 选择工具:在软件中,选择钢笔工具或形状工具,这是创建路径的主要工具。 2. 绘制路径:按照需求,在画布上绘制出想要的路径。可以通过点击和拖动来创建直线或曲线。 3. 调整路径:采用直接选择工具或路径编辑工具,对路径实微调和优化。 https://www.yanggu.tv/webgov/aitong/483853.html
2.终于有人总结了人工智能知识!(非常详细)零基础入门到精通,收藏这一篇就...首先,我们定义了人工智能的基本概念,这是理解整个领域的基础。随后,通过对人工智能发展历程的梳理,我们展示了其从诞生到如今的演变轨迹,凸显了其在科技进步中的重要地位。 接下来,我们深入探讨了机器学习与深度学习这两项核心技术。它们作为人工智能领域的两大支柱,不仅推动了技术边界的不断拓展,也为实现更高级别的智...https://blog.csdn.net/xx16755498979/article/details/144030340
3....赛事咨讯AI小知识:5分钟,带你了解人工智能的基本常识AI小知识:5分钟,带你了解人工智能的基本常识 人工智能的定义 人工智能领域苦于存在多种概念和定义,有的太过有的则不够。 作为该领域创始人之一的Nils Nilsson先生写到:“人工智能缺乏通用的定义。” 随着计算机为解决新任务挑战而升级换代并推而广之,人们对那些所谓需要依靠人类智慧才能解决的任务的定义门槛也越来...http://www.js.sgcc.com.cn/html/main/RGZHSC/article/683129.html
4.Photoshop2023Beta内置Ai绘图功能上线,你还不知道?Adobe Photoshop 2023 Beta内置的AI绘图功能是一次重大的升级,该功能将彻底改变用户处理图像的方式。本文将详细介绍Photoshop 2023 Beta中的AI绘图功能,包括其基本概念、功能特点、使用方法、实战应用以及使用技巧。 一、基本概念 Photoshop 2023 Beta中的AI绘图功能是一种基于人工智能的技术,它可以根据用户输入的文字描述...https://www.yutu.cn/news_52069.html&wd=&eqid=8e908048000381e500000006648180bf
5.计算机应用基础说课稿(精选11篇)1、课程目标:通过本课程学习学生将能够,通过本课程的学习,学生应能够掌握计算机基础知识、计算机基本使用方法、文字信息处理方法、电子表格处理数据、电子演示文稿信息处理、图像处理等常用工具软件的基本使用方法和了解网络的基本应用。培养学生的自学能力和获取计算机新知识、新技术的能力,在毕业后具备较强的实践能力、创新...https://xiaoxue.ruiwen.com/shuokegao/386213.html
6.Illustrator(AI)制图软件矢量绘图中的渐变网格基础及使用方法介绍本文介绍Illustrator渐变网格的一些基础概念、基本用法以及技巧。 Illustrator渐变网格的基础概念 看下图,Illustrator渐变网格物体中的这几条线叫网格线,网格线间相交的点叫网格点(除此以外的点叫节点),四个点围成的面积叫网格面片。(见下图) A. Anchor point 节点 ...https://www.jb51.net/softjc/94613.html
7.确定基本的AI技术概念如果扩展 AI 的主要概念(即机器展现通常与人类能力相关的功能的领域),你会看到机器如何学习模式、解释数据和使用数据推理。 为此,我们需要向机器馈送大量数据它才能学习。 此外,机器学习创建的算法各不相同,从简单的线性函数到极其复杂的函数,例如人工神经网络。 https://learn.microsoft.com/zh-cn/training/modules/leverage-ai-tools/2-identify-basic-ai-technology-concepts
8.高中信息技术课程标准1.理解信息及信息技术的概念与特征,了解利用信息技术获取、加工、管理、表达与交流信息的基本工作原理,了解信息技术的发展趋势。 2.能熟练地使用常用信息技术工具,初步形成自主学习信息技术的能力,能适应信息技术的发展变化。 (二)过程与方法 3.能从日常生活、学习中发现或归纳需要利用信息和信息技术解决的问题,能通过...https://www.fqkhzx.cn/index/article/view/id/94.html
9....你进军人工智能领域的全流程技术体系和实战指南(LLMAGI和AI...学习后将掌握:机器学习和深度学习的概念,常用的机器学习算法和神经网络算法。 人工神经网络,自然语言处理,机器学习,深度学习,遗传算法等各种人工智能领域的基本概念及其在Python中的如何实现。 认识和掌握相关人工智能和Python编程的基本知识。 还会掌握了AI中使用的基本术语以及一些有用的python软件包,如:nltk,OpenCV,pan...https://blog.51cto.com/alex4dream/6535665
10.AI入门之深度学习:基本概念篇AI入门之深度学习:基本概念篇 1、什么是深度学习 1.1、机器学习 ? 图1:计算机有效工作的常用方法:程序员编写规则(程序),计算机遵循这些规则将输入数据转换为适当的答案。这一方法被称为符号主义人工智能,适合用来解决定义明确的逻辑问题,比如早期的PC小游戏:五子棋等,但是像图像分类、语音识别或自然语言...https://blog.itpub.net/70037994/viewspace-3024487/
11.《人工智能基础》课程教学大纲1.5帮助学生了解大语言模型的基本原理和架构。 课程目标2:帮助学生掌握人工智能的相关技术。 2.1帮助学生学会Keras的安装和使用方法。 2.2帮助学生掌握数据获取与处理的方法。 2.3帮助学生用Keras搭建各种神经网络模型,掌握模型的训练、评估和使用方法。 (三)课程目标与毕业要求、课程内容的对应关系 ...https://energy.suda.edu.cn/25/30/c31046a533808/page.htm
12.人工智能的基本概念有哪些人工智能相关概念包括机器学习、监督学习、无监督学习、强化学习、深度学习、迁移学习、联邦学习。 人工智能的基本概念有哪些 企服解答 人工智能(Artificial Intelligence)相关概念如下: 机器学习(Machine Learning) 监督学习(Supervised Learning) 无监督学习(Unsupervised Learning) ...https://36kr.com/p/dp1458898134188807
13.AI产品经理必修课:NLP技术原理与应用注:当数据量足够大时,使用基于神经网络的深度学习方法处理意图识别和实体抽取任务可以取得更好的效果。 四、自然语言理解基本技术 自然语言理解基本技术分为词法分析、句法分析、语义分析三类。 1. 词法分析 词法分析包括分词和词性标注。 1.1 分词 word segmentation ...https://maimai.cn/article/detail?fid=1344416486&efid=gLTpz8BGwd9RNHvy0tNDuA
14.学好revit有什么用,零基础学revit视频教程Revit是建筑信息模型(BIM)软件,在建筑设计和施工过程中发挥着重要作用。与传统的CAD软件相比,Revit具有更多的功能和优点,可以提高建筑设计的效率和准确性。本文为想要学习和掌握Revit软件的人介绍了学习Revit的最佳途径和方法。 1.了解Revit软件的基本概念和功能 ...https://www.nanhuajiaoyu.com/chanye/news/19897.html
15.泾阳县人民政府本课程包括短视频策划、拍摄与后期制作等全部流程。本课程包含工作项目概述如下:短视频的概念、分类、盈利模式等基础知识,短视频的策划方法和拍摄技法,使用专业视频编辑软件完成短视频的剪辑、字幕与音频的添加、转场与特效的应用等后期制作工作,运用专业视频特效合成软件短视频制作片头,合成与输出完整的短视频...https://www.snjingyang.gov.cn/zfxxgk/fdzdgknr/jgsz/jgsz_20377/xzfgzbm2022/xjyj/bmgk_20415/202306/t20230613_1643809.html
16.Agent学习机器人工智能基本概念神经网络案书方案书解决AI计算机...人工智能实战 使用C#的机器学习机器人和Agent解决方案 Agent多Agent系统监督学习书 学习基本概念及其AI解决方案书 神经网络书籍 ¥73 折后¥73 发货地: 北京 包邮 品牌: 基本概念 风格: Agent 学习 机器 人工智能 基本概念 神经网络 案书 方案书 解决 ...https://www.zhe2.com/note/608526797274
17.一文读懂AI:人工智能的基本概念与实际应用一文读懂 AI:人工智能的基本概念与实际应用 摘要:近年来,人工智能(AI)因其巨大的潜力而在各行各业引起了广泛关注。然而,要全面理解 AI 并非易事,尤其是对于那些对技术概念不太熟悉的读者而言。接下来,大眼仔旭将以最通俗的语言来解析 AI 的概念,探讨它是如何运作的,以及它在现实生活中的应用。 AI 的最简单...http://www.dayanzai.me/ai-artificial-intelligence.html
18.一次性搞懂什么是AIGC!(一篇文章22个基本概念)想象一下,当机器能够认知我们的常识,当艺术被赋予新的定义,当创造力不再是人类的专利,广告营销行业定将迎来一场生产变革巨浪。数英将持续保持对AIGC领域的关注,通过资讯分享、科普认知、方法总结和深度访谈等,和大家一起,多方位走进AIGC的世界。 本期内容,我们将梳理22个AI基础概念,带你搞清楚。https://www.digitaling.com/articles/934226.html
19.人工智能学习心得(通用27篇)(3)掌握了盲目搜索和启发式搜索的基本原理和算法,特别是宽度优先搜索、深度优先搜索、等代价搜索、启发式搜索、有序搜索、ax算法等。了解博弈树搜索、遗传算法和模拟退火算法的基本方法。 (4)掌握了消解原理、规则演绎系统和产生式系统的技术、了解不确定性推理、非单调推理的概念。 https://www.yjbys.com/xindetihui/fanwen/3342600.html