AI「未来指南」!OpenAI安全团队负责人:AIAgent「详细教程」

所谓AIAgent,其实就是LLM(大语言模型)Agent,每次迭代时,它们都会生成自我导向的指令和操作,可以理解成一个能够自动执行任务的‘机器人’。由于它可以连接到各种数据源,并通过API与环境进行交互,所以这个‘机器人’又存在着很多类型,每个类型都有特殊的技能,比如搜索网页、与文档库交互,乃至通过自问自答的方式解决问题。

近期,AIAgent再度在圈内爆火。

所谓AIAgent,其实就是LLM(大语言模型)Agent,每次迭代时,它们都会生成自我导向的指令和操作,可以理解成一个能够自动执行任务的‘机器人’。

由于它可以连接到各种数据源,并通过API与环境进行交互,所以这个‘机器人’又存在着很多类型,每个类型都有特殊的技能,比如搜索网页、与文档库交互,乃至通过自问自答的方式解决问题。

那么,建立这样一个AIAgent到底包含了哪些内容,可以提供什么样的能力?

6月底,OpenAI的Safety团队的负责人LilianWeng发布了一篇6000字的博客,详细介绍了AIAgent,并认为,这将使LLM转为通用问题解决方案的途径之一。

AIAgent简介

AIAgent组成部分

规划(Planning)

记忆(Memory)

工具使用(ToolUse)

任务分解(Self-Reflection)

自我反省(Self-Reflection)

记忆类型

最大内积搜索(MIPS)

所谓AIAgent,就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是类似的例子。

LLM的潜力不仅仅是生成写得很好的副本、故事、散文和程序;它可以被框架为一个强大的一般问题解决者。

也就是说,AIAgent本质是一个控制LLM来解决问题的代理系统。LLM的核心能力是意图理解与文本生成,如果能让LLM学会使用工具,那么LLM本身的能力也将大大拓展。AIAgent系统就是这样一种解决方案。

以AutoGPT为例,一个经典的案例是对大模型输入一个问题:找出一个投资机会。正常情况下,一个LLM是无法给出具体的操作的。

而AutoGPT的思路,是首先告诉LLM,这个问题LLM一般可以咋解决这个问题,给出几个选择,然后LLM会挑选一个方法,可能是浏览雅虎财经,也可能是阅读某个文件,然后AutoGPT本身就可以根据选择的结果继续执行,这种执行可能是用谷歌搜索,也可能直接访问某个文件,但这些都是LLM无法做到的。

AutoGPT完成这些任务之后继续带上之前的记录发给LLM,继续询问新的解决方案。这就是一个简单的AIAgent的案例。

那么,为了完成上述能力,实际上一个AIAgent系统需要包含几个主要的部分。LilianWeng认为一个AIAgent系统应当包含如下图所示的几个部分:

1、规划(Planning)

子目标和分解:代理将大型任务分解为更小、易于管理的子目标,从而实现复杂任务的高效处理。

反思和提炼:代理可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并为未来的步骤改进它们,从而提高最终结果的质量。

2、记忆(Memory)

短期记忆:所有的上下文学习,都是利用模型的短期记忆来学习。

3、工具使用(ToolUse)

代理学会调用外部API以获取模型权重中缺少的额外信息(在预训练后通常难以更改),包括当前信息、代码执行能力、对专有信息源的访问等。

下面,对每个部分进行详细的解释。

规划Planning

复杂的任务通常涉及许多步骤。AIAgent需要知道他们是什么,并提前计划。

1、任务分解(Self-Reflection)

任务分解主要是的目的是将复杂的任务分解成简单的小任务,这样LLM可以更简单地解决问题。

这里介绍2类方法:

2)思想树(姚等人2023年)通过在每一步探索多种推理可能性来扩展CoT。它首先将问题分解为多个思维步骤,并每一步生成多个思维,创建一个树结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索),每个状态都由分类器(通过提示)或多数票评估。

2、自我反省(Self-Reflection)

自我反省是一个重要的方面,它允许AIAgent通过完善过去的行动决策和纠正以前的错误来迭代地改进。它在现实世界中发挥着至关重要的作用,在现实世界中,试错是不可避免的。

这里也包含几种方法:

1)ReAct(姚等人2023年)通过将动作空间扩展为特定于任务的离散动作和语言空间的组合,将推理和行为集成在LLM中。前者使LLM能够与环境交互(例如使用维基百科搜索API),而后者则提示LLM以自然语言生成推理跟踪。

2)Reflexion(Shinn&Labash2023)是一个为代理配备动态记忆和自我反思能力以提高推理能力的框架。Reflexion具有标准的强化学习(ReinforcementLearning,RL)设置,其中奖励模型提供简单的二进制奖励,而行动空间则沿用ReAct中的设置,即在特定任务的行动空间中加入语言,以实现复杂的推理步骤。每次行动后,AIAgent会计算一个启发式的值,然后根据自我反思的结果决定重置环境以开始新的试验。

3)ChainofHindsight(CoH;Liu等人,2023年)通过向模型明确展示一系列过去的输出结果,鼓励模型改进自己的输出结果。

记忆Memory

记忆(Memory),是类似多轮对话中记住之前的输入和设定的一种能力。在当前的大模型架构中,随着对话的增长,要记住之前用户的输入内容再输出需要消耗大量的硬件资源。大多数模型支持的上下文长度都是非常有限的。

超过这个长度之后,大多数模型的性能都会极具下降或者是不支持。但是长上下文是解决实际问题中必须要面对的。如代码生成、故事续写、文本摘要等场景,支撑更长的输入通常意味着更好的结果。

在这里,LiliWeng先是总结了一下人类的记忆分类总结,然后对应到大模型上分别是什么样的。

1、记忆类型

记忆可以定义为用于获取、存储、保留和检索信息的过程。人类大脑中有几种类型的记忆。

感官记忆(SensoryMemory):这是记忆的最早阶段,能够在原始刺激结束后保留对感官信息(视觉、听觉等)的印象。感官记忆通常只能持续几秒钟。其子类别包括图标记忆(视觉)、回声记忆(听觉)和触觉记忆(触觉)。

短时记忆(Short-TermMemory,STM)或工作记忆:它存储我们当前意识到的信息,以及执行学习和推理等复杂认知任务所需的信息。

显性/陈述性记忆:这是对事实和事件的记忆,指那些可以有意识地回忆起的记忆,包括外显记忆(事件和经历)和语义记忆(事实和概念)。

我们可以大致考虑将上面的记忆类型对应到下面几个部分:

感官记忆是类似大模型学习原始输入(包括文本、图像或其他模式)的嵌入表征;

短时记忆可以理解为大模型的上下文学习,类似于prompt。由于受到Transformer有限上下文窗口长度的限制,它是短暂和有限的,但是可以每次输入都引入。

那么,在外部数据检索的时候也需要考虑一些方法。这里提供一种经典的方法。

2、最大内积搜索(MIPS)

外部存储器可以缓解有限注意力的限制。标准的做法是将信息的嵌入表示保存到向量存储数据库中,该数据库可支持快速的最大内积搜索(MIPS)。

为了优化检索速度,通常选择近似近邻(ANN)算法来返回近似的前k个近邻,从而以损失的少量精度换取巨大的速度提升。

工具使用ToolUse

1、MRKL(Karpas等人,2022年)是“模块化推理、知识和语言“的简称,是一种用于自主代理的神经符号架构。MRKL系统包含一系列“专家“模块,通用LLM用作路由器,将查询路由到最合适的专家模块。这些模块可以是神经模块(如深度学习模型),也可以是符号模块(如数学计算器、货币转换器、天气API)。

Karpas等人使用算术作为测试案例,对LLM进行了微调实验,以调用计算器。他们的实验表明,解决口述数学问题比解决明确陈述的数学问题更难,因为LLM(7BJurassic1-largemodel)无法可靠地提取基本算术的正确参数。这意味着当外部符号工具能够可靠地工作时,了解何时以及如何使用这些工具至关重要,这取决于LLM的能力。

2、TALM(工具增强语言模型;Parisi等人,2022年)和Toolformer(Schick等人,2023年)都对LM进行了微调,使其学会使用外部工具API。数据集根据新添加的API调用注释是否能提高模型输出的质量进行扩展。

ChatGPTPlugins和OpenAIAPI函数调用是增强工具使用能力的LLM在实践中发挥作用的良好范例。工具API的集合可以由其他开发人员提供(如插件),也可以自行定义(如函数调用)。

3、HuggingGPT(Shen等人,2023年)是一个使用ChatGPT作为任务规划器的框架,可根据模型描述选择HuggingFace平台中可用的模型,并根据执行结果总结响应。

HuggingGPT包含四个步骤:任务规划、模型选择、任务执行和响应生成。

4、API-Bank(Li等人,2023年)是评估工具增强LLM性能的基准。它包含53种常用的API工具、一个完整的工具增强LLM工作流程以及264个注释对话,其中涉及568次API调用。

API的选择相当多样化,包括搜索引擎、计算器、日历查询、智能家居控制、日程管理、健康数据管理、账户认证工作流程等。由于API数量众多,LLM首先可以访问API搜索引擎,找到要调用的API,然后使用相应的文档进行调用。

THE END
1.ai大模型和小模型的区别ai大模型和小模型的区别 人工智能领域中的模型分为两种,一种是大模型,另一种是小模型,两者在训练和应用中有着明显的区别。 本文将从定义、特点、应用等方面详细介绍这两种模型的区别。 一、概念定义 ,大模型通常指参数数量较多、结构比较复杂、精度较高、计算量较大的模型。它们能够处理更复杂的问题,能够提高模型...https://m.elecfans.com/article/2207224.html
2.AI大模型应用入门实战与进阶:Part16AI大模型未来趋势1.背景介绍 随着人工智能技术的发展,AI大模型已经成为了许多领域的核心技术,例如自然语言处理、计算机视觉、推荐系统等。这些大模型通常具有高度的参数量和复杂性,需要大量的计算资源和数据来训练和优化。在这篇文章中,我们将探讨AI大模型的未来趋势,以及如何应对其所面临的挑战。 https://www.jianshu.com/p/f3b441e1fbe4
3....哪家公司研发的kimichat语言模型性能详细介绍kimi人工智能作为一款备受关注的产品,其出色的性能和广泛的应用领域引发了人们对其研发公司的浓厚兴趣。那么,究竟是哪家公司研发了这款引领潮流的人工智能产品呢?小编这里整理了些相关资料,快来和我一起看看吧! kimichat语言模型性能详细介绍 1、Kimi智能助手是由国内AI公司月之暗面开发的,创始人是杨植麟。 https://www.crsky.com/zixun/592457.html
1.一文让你搞懂什么是AI大模型(非常详细),零基础入门到精通,看这一篇就够...大模型的复杂性使得其内部机制难以解释,如何提高模型的透明度和可解释性是一个重要研究方向。 尽管如此,AI大模型的未来依然充满希望。随着计算能力的提升和算法的不断优化,大模型将在更多领域展现出其强大的能力和应用前景。 结语 通过本文的介绍,相信你已经对AI大模型有了全面的了解。无论是自然语言处理、图像识别,...https://blog.csdn.net/weixin_49892805/article/details/142652947
2.探索AI大模型的分类方法与技术在人工智能领域,AI大模型是指参数量庞大的深度学习模型,拥有强大的学习能力和推理能力,能够解决更加复杂的问题和任务。在技术层面,AI大模型的分类方法与技术主要包括模型结构、训练策略和推理加速等方面的技术突破。以下将详细介绍这些技术方面的发展和应用。 https://yaotai.163.com/cs/metaverse/ZsKcwY4BLmgvlgK6_Shl.html
3.AI大模型应用入门实战与进阶:大模型在知识图谱构建中的应用...1.背景介绍 知识图谱(Knowledge Graph, KG)是一种以实体(Entity)和关系(Relation)为核心的数据结构,用于表示实际世界的知识。知识图谱的应用范围广泛,包括信息检索、问答系统、推荐系统、语义搜索等。随着大规模机器学习(Deep Learning)和自然语言处理(Natural Language Processing, NLP)的发展,大模型(Large Model)在知...http://www.zhangshiyu.com/post/68325.html
4.人工智能大模型原理与应用实战:大模型的基本概念51CTO博客1.背景介绍 人工智能(Artificial Intelligence, AI)是计算机科学的一个分支,研究如何使计算机具备人类智能的能力。随着计算能力的提升和数据量的增加,人工智能技术在过去的几年里取得了巨大的进展。在这一进程中,大模型(Large Models)发挥了关键作用。大模型是指具有大量参数(通常超过百万或千万)的机器学习模型,它们可以...https://blog.51cto.com/universsky/8997109
5.关于举办AIGC技术与大模型应用实战师资培训的通知同时为助力战略性新兴产业融合集群发展和现代化产业体系建设,以实现高水平科技自立自强、建成教育强国、科技强国、人才强国的远大目标,深圳信息职业技术学院(通信类国家级职业教育“双师型”培训基地)结合当前新兴产业技术发展趋势与人才培育需求,拟定于2024年4月11日-17日举办“AIGC技术与大模型应用实战师资培训”活动,...https://www.sziit.edu.cn/info/1038/16020.htm
6.万字长文详解:大模型时代AI价值对齐的问题对策和展望在弱人工智能时代,人们可能难以设想一个具有通用任务执行能力的AI存在如此具体紧迫的危险,但在大语言模型(LLM)爆发式发展的今天,我们需要更好地理解并能够具象化感知这一危险发生的可能性。因此,本文将从这一带有科幻色彩的故事走入,将AI价值对齐拆解为几项比较具体的研究方向,从学术的角度进行详细阐释。https://36kr.com/p/2469833834666113
7.“积极拥抱AI大模型”!腾讯云胡利明发声问:能否简单介绍AI大模型对于金融机构有何价值? 胡利明:本轮AI大模型热潮给包括金融行业在内的各行各业都带来了深远的影响。AI大模型通过大规模的参数和预训练技术,使得AI具备了比过去更强大的理解能力和表达能力,因此应用场景非常广泛。 对于金融机构而言,善用AI大模型,就相当于配备了一群不限数量的优秀“大学毕业...https://finance.eastmoney.com/a/202309102842760628.html
8.大模型综述:万字长文详解AI大模型的原理应用与未来趋势(非常...在自然语言处理(NLP)和人工智能(AI)的浩瀚星空中,大语言模型(Large Language Models, LLMs)如同一颗璀璨的新星,正在改变我们与语言、与机器交互的方式。本章将带您踏上一段探索之旅,揭示大语言模型的发展历程、独特魅力及其在现实世界中的多彩应用。 1.1 语言模型的进化史 ...https://www.jindouyun.cn/document/industry/details/236141
9.公司介绍蜜度Midu公司介绍 蜜度科技股份有限公司 坚持以实用的AI产品,为客户创造更大价值使命 科技赋能千行百业愿景 蜜度成立于2009年,是一家以人工智能技术为核心的语言智能和垂直大模型企业,专注于多模态、多语言智能科技,以数据与AI算法双轮驱动,赋能千行百业实现数智化转型升级。 蜜度基于自主研发的蜜巢、文修两个垂直大模型,利用...https://www.midu.com/about
10.AI摄影仅需要了解这几款AI绘画大模型!一秒生成胶片风拍立得...介绍 随着AI技术的快速发展,AI绘画技术也在不断进步。 通过训练大模型,AI能够学习并复现现实世界中的各种人和事物,使生成的照片具有更高的真实性和艺术性。加上最新新的AI绘画模型不断涌现,为用户提供更多选择,使得生成的照片更加多样化和精致。 我向你推荐三个时下最火热的真实人大模型,并与你分享利用各种embe...https://www.yizz.cn/3127.html
11.全球十大最强大模型AI大模型实力排名全球知名大模型盘点→...人工智能技术是全球科技竞争的重要领域,全球数家科技公司已加快布局和发展人工智能产业。本文中Maigoo小编将带大家看看全球十大最强的AI大模型,如ChatGPT、Claude、Gemini,以及LLaMA、MPT、StableLM、Falcon、通义千问、文言一心等都较具代表性。下面一起来详细了解下这https://www.maigoo.com/top/440978.html
12.使用Jmeter对AI模型服务进行压力测试腾讯云开发者社区在上文我们介绍了如何使用腾讯云的GPU部署大模型,我们使用了FastChat框架部署了ChatGLM3-6B的模型。 但是通常我们在对模型选型时,还需要对大模型进行评测。 在评估AI模型时,我们除了要关注模型本身的性能指标外,还需考虑提供的模型服务性能、吞吐量以及并发性等方面。本文将介绍如何利用JMeter进行压力测试,并获取关键的...https://cloud.tencent.com/developer/article/2356687
13.一周AIGC丨Pika完成5500万美元融资,国内首套AIGC汉服亮相韩媒:三星 Galaxy Book 4 系列笔记本 12 月 15 日发布,将支持本地运行高斯 AI 大模型 据IT之家援引韩联社报道,有业内人士透露称,三星电子将于本月 15 日推出搭载英特尔下一代处理器酷睿 Ultra 的 Galaxy Book 4 系列笔记本电脑,号称是全球首款 AI 笔记本。 https://www.thepaper.cn/newsDetail_forward_25540020