预测未来绝非易事,这里提出的不少预测也许永远不会实现,甚至朝着截然相反的方向前进。但我认为这样的思考仍有重要意义,将帮助我们主动适应不断变化的新世界。随着整个时代的快速推进,这种设想并筹划新阶段下新形势的能力将变得越来越重要。
不过世界上还有更多积极接纳AI进步的地区,开源AI很可能会在交换价值低但使用价值高的服务上(即可由AI执行的相对简单服务)在这里蓬勃发展。与之对应,那些模型性能的微小改进即可对应价值显著提升的服务,将迎来截然不同的经济激励形式。对于此类服务,预计赢家通吃将继续占据主流,意味着更先进的AI系统将持续提供更多的剩余价值。
参与者之间的信息不对称可能是政府强制管控的结果(例如知识产权、许可、访问控制等);消解这种信息不对称需要采取政治行动,已非纯粹的技术手段所能解决。然而,技术本身同时也将削减因资源不对称所引发的信息不对称。
由于训练大语言模型(LLM)需要大量资源,所以预计“赢家通吃”类AI系统的开发和管理将首先由少部分闭源实体所主导。出于经济动机,这些实体会将模型权重和架构作为专有资产,严格保密能为其带来更强的盈利能力。
遗憾的是,这种资源限制导致研究人员、非营利组织和初创公司等小规模实体因无法承担高昂的能源成本,而几乎不可能从零开始训练自己的大语言模型。因此,目前大部分开源大语言模型均是对现有模型进行微调,这种方法成本更低且耗能更少。基于这样的动态,我们最明智的决策应该是保持开源AI在质量上始终具有竞争力,借此降低深度学习模型规模化训练和运行带来的成本。
稀疏激活张量
相反,必须借助新的技术和协议来实现社会经济权力的动态性转变。面对这个问题,我力推“稀疏激活张量”概念及其对等空间的协同作用。我们将在未来的工作中不断探索如何构建具备模型中立性的稀疏激活张量数据结构。
在本文中,我将简单介绍其基本理念、技术开发的底层原理,以及对开源社区及其他领域的影响。简单来讲,稀疏激活张量就是能够以稀疏方式检索并更新自身状态的数据结构。为了更好地理解其深层含义,让我们先从一个简单示例入手。
图一:什么是嵌入层。
嵌入可以通过数据库进行有效检索,无需将整个张量加载至内存中即可进行稀疏检索。
虽然一对一映射方法在单词等离散token情况下确有价值,但却无法在连续输入中正常起效。例如,一个28x2828x28的图像块中包含巨量潜在像素组合,根本不可能建立一对一映射的嵌入层。但我们将在后文讨论,使用多对一映射的方法同样能获得类似结果。嵌入检索和稀疏激活张量之间的逻辑联系也将变得显而易见。
考虑这样一个情况,我们有一个归一化矩阵WK,它由存储模式和一个归一化输入I组成(详见图二)。在I和WK之间执行点积,本质上相当于检查WK中的各列并确定哪个列向量与I更相似。所得到的K向量表示I和WK的每一列之间的余弦相似度。K得分越高,则表示输入与相应列之间的相似度越高。
图二:K中的值代表Wk的列与I的相似度。
图三:现代HopfieldLookup层。
与数据库进行类比,“稀疏检索”的概念相当于具有预索引的权重,无需遍历整个数据库即可实现记录检索(即已存储的模式)。然而,目前能利用向量数据库的transformer还仅限于在推理阶段执行近似kNN查找。换言之,模型训练阶段仍只能以算力密集方式进行,因此对应大量能源消耗。为了促进大规模神经网络的集体训练,必须将模型权重的同时更新转化为稀疏更新。通过设计这种包含稀疏检索和稀疏更新的神经构建块,我们将为开源AI社区做出贡献,克服资源限制导致的信息不对称问题。
“魂灵”的密码学证明
虽然这些系统实用性出众,但还缺少还原当前对等AI项目的一个关键组成部分:对抗环境中的无信任机制。要想在Petals这类系统中执行前向传播,就要求人们必须充分信任网络中的其他节点。换句话说,任何恶意节点都能返回实际上并非源自模型的输出。虽然这种局限性没有彻底击溃协作研究的前景,但的确已经阻碍了对等AI系统在现实世界中的广泛应用。
这就是稀疏激活张量发挥显著优势的第二个用例。除了能源效率更高之外,稀疏激活张量还具有必要属性,能够在对等AI网络中实现前向和后向传播的密码学安全。现在,让我们简单观察Merkle树数据结构,了解这一切是怎样实现的。
Merkle树是一种二叉树数据结构,用于安全验证列表中的值是否存在,且不必向另一方提供列表中的每个值。要创建Merkle树,列表中的每个值都须使用加密哈希函数进行哈希处理,进而产生叶节点。之后,通过哈希将这些叶节点组合起来形成非叶父节点。重复这个过程,直至抵达二叉树的根(详见图五)。
图五:Merkle树数据结构。灰色部分为叶节点,黑色部分为非叶节点。
为了确认Merkle树中是否存在某个值,这里要使用Merkle证明,其由一系列哈希值组成。使用Merkle证明对叶节点哈希执行哈希迭代,即可重建原始Merkle根(详见图六)。需要注意的是,Merkle证明的接收者必须已经拥有Merkle根的本地副本,否则无法完成验证过程。通过将本地存储的Merkle根与Merkle证明生成的最终哈希进行比较,接收节点即可验证某个值是否包含在用于创建Merkle根的值列表当中。如果两个哈希相互匹配,则可证明提供的值确实是原始Merkle树中的叶节点之一。请注意,Merkle证明的大小(即图六中的绿色哈希)按对数比例缩放,这样即使叶节点的数量很大,也能实现紧凑的存在证明。
图六:Merkle证明。为了证明初始值列表中存在H3,必须先用H4对其进行哈希,之后是H1,2,最后是H5,6,7,8(图中绿色部分),由此重新创建Merkle根的哈希值。
Merkle树数据结构和稀疏激活张量间的联系,取决于其潜在组合。Merkle树可以构建在稀疏激活张量之上,以稀疏方式实现对状态的检索和更新。在这里的示例中,张量的列向量作为Merkle树中的叶节点(参见图七)。
图七:使用稀疏激活张量的列作为叶节点所构建的Merkle树。
图八:现代HopfieldLookup层的“魂灵”密码学证明。假定Wk内I的k个最近邻为H1和H5对应的列。通过将H1与H2、H5与H6进行哈希,之后将这些生成的哈希与H3,4和H7,8进行哈希进行哈希,即可生成稀疏评分张量的Merkle根。之后,执行同样的步骤以生成Wv的Merkle根。
使用稀疏检索的Wk和Wv嵌入,以及所提供的Merkle证明,Alice即可生成密码验证的输出。特别需要注意的是,在实际应用当中,Bob不会以未压缩格式传输嵌入。相反,Bob会使用增量编码来压缩嵌入,从而显著减少所需传输带宽。此外,Bob不会为Wk和Wv中的各k个最近列/行向量发送单独的Merkle证明。相反,Bob会为Wk和Wv分别传输CompactMerkleMultiproof。最后,在使用稀疏激活张量的前提下,同样的技术也可应用在transformer自注意力步骤当中。
在OpenCybernetics,我们将稀疏激活张量的MerkleMultiproofs称为“魂灵”的密码学证明(CryptographicGhostProof,简称CGP)。我们坚信CGP将成为强大的构建块,并在未来的AI系统中发挥重要作用。相信在不久的未来,基于“魂灵证明”的神经活动将构成大部分互联网流量。由于每个AI系统都存在自己的“魂灵文件”,其中包含各个网络层的“魂灵”根,以及架构信息和前向/反向传播所涉及的操作,因此实体可以信任AI系统的输出来自正确模型。
CGP和“魂灵文件”的引入不仅给对等AI系统带来了新范式,同时也有助于培养透明度文化。将“魂灵”的密码学证明纳入AI交互的互联网协议后,模型架构和权重将无法被隐藏起来。“魂灵文件”能确保模型架构的透明性,而CGP则负责公开模型权重(因为每次执行前向传播时,都会以压缩形式共享一小部分权重)。这种技术转变将令人工认知成为一种共享资源,可供所有人访问和拥有。
一点反思
除了开放和免信任之外,CGP的介入还有望将AI和去中心化分类账融合起来,为自主AI系统的出现铺平道路。自治AI系统是一种对等AI协议,它利用的正是共识算法的无许可特性。这些协议不会改变分类账中的条目,而是传播其中的观点。为了确保整个系统有效运行并抵御DoS攻击,这些协议可能依赖于积分或货币等载体。这些自治系统的技术复杂性及其经济/社会影响,还有待在未来的工作中继续观察。
希望本文能激发大家对于AI和对等技术间协同效应的兴趣。我坚信未来几年内,AI和数据库系统的交叉领域将取得重大进展,特别是在稀疏激活张量方向上。此外,AI和对等系统的融合,以及稀疏激活的联想记忆网络的发展,无疑也将迎来显著进步。欢迎大家探索这些意义深远的主题,并为开源AI做出贡献。这份努力的意义不止于共享代码,更在于为全球社区赋能。