多年来,人类一直试图打造可以自主完成预设目标的代理或实体,即人工智能体(AIAgent),以协助人类完成各种各样繁琐的任务。人工智能体是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,具备通过独立思考、调用工具逐步完成给定目标的能力。从原理上来说,人工智能体的核心驱动力是大模型,在此基础上增加规划(Planning)、记忆(Memory)和工具使用(ToolUse)三个关键组件。最近大模型在人工智能应用领域有了重大突破,更是让人们看到了智能体新的发展机会。
大模型是AI发展的重要方向之一。它的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。目前大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。
那什么是智能体(Agent)?这需要追溯到Agent的来历,Agent是个很古老的术语,从哲学意义上讲,“代理人”是指具有行动能力的实体,而“代理”一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现。相应的,“代理人”一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理”的概念涉及个体的自主性,赋予他们行使意志、做出选择和采取行动的能力。
除了前面强调的自主和行动能力外,智能体还具备其它的特征,具体包括自主性、响应性、主动性、社会性。自主性是指智能体在没有人类或其他实体的直接干预下运行,并对其行动和内部状态具有某种程度的控制。响应性是指智能体感知其环境(可能是物理世界、通过图形用户界面的用户、一组其他智能体、互联网,或者可能是所有这些的结合体),并及时对发生的变化做出响应。主动性是指智能体不仅仅是对环境做出反应的,它们还能够通过采取主动行动来展示以目标为导向的行为。智能体的社会属性,它是指智能体通过某种通信语言与其他智能体(可能还包括人类)互动和社交的能力。
自去年OpenAI发布ChatGPT以来,大模型技术掀起了新一轮人工智能浪潮,大模型智能体成为了人们深度研究的课题。虽然研究人员在该领域有了一些重要突破,但还有一些漏洞需要持续探索去解决。若大模型智能体能够实现更高的智能化,将会给人类带来一种全新的体验,期待未来人类能与这些智能体一起共存。
大模型智能体发展历程
大模型智能体发展主要经历了三个阶段,分别是萌芽期、探索沉淀期和迅猛发展期。
1950年至2005年是萌芽期,以CNN为代表的传统神经网络模型阶段。从1956年研究人员提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。
2006年至2019年是探索沉淀期,以Transformer为代表的全新神经网络模型阶段。2013年,自然语言处理模型Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。其中,GPT-1是最早的GPT模型,包含1.17亿个参数。它在自然语言处理领域表现出色,被广泛应用于机器翻译、语音识别、搜索推荐等领域。2019年发布了GPT-2,包含15亿个参数,相比GPT-1在处理文本生成、问答、机器翻译等任务时具有更强的能力,甚至可以生成几乎难以区分的真实文本。在探索期,以Transformer为代表的全新神经网络架构,逐渐成为大模型的算法架构基础,使大模型技术的性能得到了显著提升。
2020年到至今是迅猛发展期,以GPT为代表的预训练大模型阶段。2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,其语言生成能力非常出色,可以进行多样的自然语言任务,如问题回答、语义搜索等,可以生成各种领域的文本。而且,其在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。它更加注重对话的流畅性和实用性,能够帮助人们解决一些实际问题。2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。GPT-4是GPT-3的升级版,包含1.6万亿个参数。它能够处理更加复杂和抽象的语言任务,具有更强的语言理解能力和更高的计算能力。
在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。ChatGPT的巨大成功是在微软Azure强大的算力以及wiki等海量数据的支持下,在Transformer架构基础上,坚持GPT模型以及人类反馈的强化学习(RLHF)进行精调的策略下取得的。Transformer架构是当前大模型领域主流的算法架构基础,其上形成了GPT和BERT两条主要的技术路线,其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后,GPT逐渐成为大模型的主流路线。综合来看,当前几乎所有参数规模超过千亿的大型语言模型(LLM)都采取GPT模式,如百度文心一言,阿里发布的通义千问等。
由此可见,基于LLM的Agent,集合了前期各类型AIAgent的优势,有着更广泛的适应性和应用,甚至成为实现通用人工智能(AGI)的较大可能性路径之一,但基于LLM的Agent也存在各种各样的问题,需要持续对这些问题改进并优化。
大模型智能体研究方向
大模型的规模增大、能力增强,极大的冲击了人工智能领域的研究方向,它虽然解决了很多以前未能解决的老问题,但同时也产生了更多新的问题。以下是目前大模型智能体面临的具有挑战性的问题。
1.算力需求巨大,调优难度高
2.可解释性和透明度不足
大模型通常由深度学习算法构建,其复杂的网络结构和参数设置使得其决策和推理过程难以被解释。这使得我们无法理解模型为何作出某个决策,从而限制了模型的可信度和应用范围。尤其在金融与医疗行业的应用场景中,决策的可解释性与透明度的提高是必要的,需要对决策原因进行解释,以确保决策的合理性和公正性。然而,大模型的黑箱性质无法满足法律和伦理要求,无法解释其决策背后的原因和依据。所谓的黑箱性质是指对特定的系统开展研究时,人们把系统作为一个看不透的黑色箱子,研究中不涉及系统内部的结构和相互关系,仅从其输入输出的特点了解该系统规律,得到的对一个系统规律的认识。
3.需强化人工智能与人类的交互
大模型作为基础的大语言模型具有强大的自然语言理解和生成能力,因此大模型智能体能够与人类通过自然语言来交流。但语言本身包含着丰富的信息,除了直观表达的内容以外,背后还可能隐藏着说话者更丰富的信息。尽管在大规模语料库中训练出来的模型已经具有足够的智能来理解指令,但它们中的大多数仍无法模拟人类对话或充分利用语言所传达的信息。因此,理解语言中隐含的意思至关重要,特别是当收到模糊的指令时,理解其隐藏的意思尤为重要。
大模型智能体不仅仅通过自然语言与人类交流,它可以通过感知听觉、视觉等多维度获取信息。通过多维度获取的信息,可以感知和理解人类情感,能够更好地与人类交互,提高人机交互的体验和效率。业内称之为情感计算,情感计算是未来大模型智能体的一个重要研究方向。
4.伦理、隐私保护以及数据安全
大模型智能体在各个领域取得了显著的成就,然而同时也伴随着争议点。争议的核心问题在于安全,安全有两个方面,一个是大模型带来的对人类伦理的思考,一个是大模型本身带来的隐私泄漏、数据安全等问题。伦理方面涉及到价值观,使大模型的价值观与人类的价值观相对齐,让大模型按照设计者的意愿行事,而不作出超出意图之外的举动。由于人类社会的价值观是多元化的,且这些人工智体之间能产生冲突,这会导致大模型智能体的价值观对齐存在很大的难度。
算法模型方面也同样存在安全隐患。当攻击者对模型的数据进行攻击,试图更改模型的参数或者整体架构的时候,一旦成功,模型的输出可能导致完全不可控,产生不可预知的结果。
大模型智能体的发展仍面临着诸多挑战,但随着技术的不断进步和应用需求的不断增长,我们有理由相信未来大模型智能体将会在更多领域得到广泛应用并发挥重要作用。
大模型智能体应用
以LLM为基础的大模型智能体产品在层次上可以分为中间层Agent和垂直领域Agent。中间层Agent,提供实用可复用的Agent框架,降低开发Agent的复杂度,并为Agent的合作提供机制设计。该类项目主要从模块化、适配性、协作等几方面进行创新。具有代表性的产品包括AutoGPT、Imbue、Voiceflow、FlxleAI、Reworked、Cognosys、InducedAI等产品。垂直领域Agent,深入某个垂直领域,理解该领域专家的工作流,运用Agent思路设计Copilot产品,用户介入使Agent思路更为可控。具有代表性的产品包括Dropzone、Middleware,、Parcha、Luda、OutboundAI、Fine等。
LLM-basedAgent产品在形式上可以分为具身机器人(Robot)、与现实场景结合的Agent(O2O)、元宇宙型的Agent(NPC)。具身机器人是可以完全控制一套专用的独立外设,如智能家电、自动驾驶等。与现实场景结合的Agent,可能是纯粹数字的,也可能不是,如招聘、营销、空调管理、运维状态监控等。元宇宙型的Agent,是指虚拟世界中的纯粹数字主题,例如谷歌和斯坦福计划的现实版西部世界中的智能NPC、虚拟数字人。
单智能体由一个智能体和环境组成,它的原理是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。
产业上已出现单智能体的具体应用,例如AutoGPT。AutoGPT是2023年3月开源的第一款AIAgent实验性项目,由游戏开发者ToranBruceRichards开发。AutoGPT可根据用户给定的目标,自动生成所需提示,并利用GPT4和各种工具API执行步骤的项目,无需人类的干预和指导。上线5个月在GitHub上的星星数量超过149K,具有一定代表性,对后续各种Agent发展具有启发意义。
另外,GPTEngineer也是单智能体的具体应用。6月11日推出的开源代码生成工具,基于GPT模型,能根据用户的知识和需求生成高质量的代码,功能包括创建新函数、修复现有代码错误等等,支持多种编程语言。截至2023年9月,GitHub星星数量接近44k。它具有可定制性,用户可根据自身的编码风格、项目需求和编程习惯进行设置,让GPTEngineer生成符合自身要求的代码。可理解代码上下文,并生成与之相适应的代码片段,用户无需为适应其生成方式而做出额外调整,从而提高工作效率。
在传统的强化学习算法中,每个智能体总是在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
MetaGPT是多智能体的具体应用,7月深度赋智开源的多智能体框架,快速帮助用户搭建属于自己的虚拟公司,虚拟公司中的员工都是智能体,如软件公司中的工程师、产品经理、架构师和项目经理,用户只需输入简短的需求,MetaGPT就能输出整个软件公司的工作流程和详细的SOP,如创造故事、竞品分析。
ChatDev也是多智能体具体应用。ChatDev是由清华大学孙茂松教授指导,联合面壁智能、北京邮电大学、布朗大学研究人员共同发布的、大模型驱动的全流程自动化软件开发框架,可以理解为对话驱动的虚拟软件开发公司。在人类“用户”指定一个具体任务需求后,不同角色智能体将进行交互式协同,以生产一个完整软件。
教育领域也逐渐开始应用Agent产品,例如Aida、Jagoda。其中,这些Agent产品负责参与学习、按需支持、学习者的内容掌握、AI驱动的洞察等工作。参与式学习是指通过即时的、人工智能驱动的澄清和指导,营造一个更具参与度、互动性的学习环境。按需支持为无论是解决电子学习平台故障还是了解大学的入学先决条件,都可以提供即时、准确的帮助。而且它们可以使学习者深入研究教育材料,确保理解和知识保留。同时,Agent也可做到AI驱动的洞察,根据学习者的互动、偏好和查询,不断增强教育体验。
房产行业也有一些Agent产品的应用,如Epique、propertypen、Listingcopy等。房产行业中这些Agent具体负责个性化物业互动、内容掌握和列表保留、AI驱动的查询分析、安全、适应性强的可扩展等工作,个性化物业互动,通过可定制的代理有效地吸引客户,同时提供量身定制的房地产建议。内容掌握和列表保留,通过内容感知技术,客户可以从各种列表中获得精确的详细信息,从而鼓励积极的互动和更高的信任感。AI驱动的查询分析,基于AI语义分析了解客户深度需求,提供客户偏好和感兴趣领域的完整视图。安全、适应性强且可扩展,保护客户数据,随着房源的增长毫不费力地扩大规模,并适应房地产科技行业不断变化的需求。
除此之外,Agent产品也在旅游及酒店领域、客户支持领域、人力资源领域、创造和供应链领域、政府和市政服务领域、医疗保健领域、媒体和娱乐业等广泛应用。未来,大模型智能体在医疗、交通、制造等行业的长期渗透潜力大。
项目检索
检索需求描述
检索数据库及检索年限
检索结果
筛选重点专利文献
二次检索,筛选重点研究方向专利,供企业进行参考。
国内专利客观分析
01
概况分析
年度申请量分析
针对大模型智能体技术在国内专利申请量的变化趋势,应当与2020年OpenAI公司发布的GPT-3有一定关系。GPT-3的模型参数规模达到了1750亿,是当时最大的语言模型。2022年11月30日,OpenAI发布了一款聊天机器人程序ChatGPT,迅速引爆互联网。国内专利申请量在此期间的增长量也最多,且近年来大模型智能体的热度依然高涨,预测专利申请量将继续维持较高水准。
△图1年度申请量
专利类型分析
△图2专利类型
另外,人工智能技术更新换代速度极快,大模型智能体作为其中的一个重要方向,其技术也在不断发展和演进。在这种情况下,发明专利能够更好地保护企业的技术创新和知识产权,有助于推动技术的进步和应用。
而且,在大模型智能体领域的市场竞争也异常激烈,企业需要不断进行技术创新和专利申请以保持竞争优势。通过申请发明专利,企业可以获得更加长期和稳定的专利保护,从而在市场竞争中占据更加有利的地位。
综上所述,从技术创新性、技术复杂性、技术更新换代速度以及市场竞争压力等方面的分析,可以看出通过发明专利保护更有利于申请人。
02
申请人分析
申请人排行分析
通过申请人排行榜分析,可以明确哪些企业或科研院所或个人在该方向的研究更为深入。如图3所示的结果显示,互联网公司以及电子科技领军企业大模型技术创新优势明显。百度、腾讯、华为、平安科技等优势企业均入榜,意味着这些科技企业的创新也较为活跃。此外,平安国际智慧城市科技、中国平安财产保险、中国工商银行、中国平安人寿保险也入榜单,表明大模型智能体正不断向各个应用场景渗透,不同行业的创新主体纷纷加大对大模型智能体的研发投入,大产业创新水平正不断提升。除此之外,各大高校也对大模型智能体颇有研究,北京航空航天大学占据了排名第十,浙江大学、北京理工大学、清华大学等虽然没有在排名上,但近几年也在大模型智能体领域申请了较多专利。
△图3申请人排行
从图中可以看出,申请人排名第一位的北京百度网讯科技有限公司与其他公司在专利申请量上有显著的差距。同为百度旗下还有一家公司入榜,是百度在线(北京)有限公司。国内大模型智能体领域的标志性产品——“文心一言”正是由百度推出的,截至目前,文心一言的用户规模已达7000万。
百度作为中国领先的科技公司之一,通过技术引领、数据驱动和生态布局,成功构建了人工智能驱动的商业模式。百度的经验启示着其他企业和科研院校在人工智能领域的探索和应用,通过技术创新、数据驱动和生态布局,推动商业模式的创新和升级,促进产业的升级和转型,实现可持续发展和创造更大的价值。
平安科技的专利数量为535件,排名第二,与排名第一的百度网讯相比有一定的差距。有些人可能会觉得突兀,但这恰恰代表了人工智能不可忽略的趋势。平安科技是平安集团的全资子公司,致力于运用人工智能、智能认知、云计算等前沿科技,在人工智能技术领域、金融科技和数字医疗业务领域的专利申请数量表现出色。同为平安集团旗下的中国平安人寿保险股份有限公司、平安国际智慧城市科技股份有限公司、中国平安财产保险股份有限公司均在排名前十,平安集团以保险起家,目前是中国综合金融领域的巨头,同时发力健康领域。而这几年,更是大力发展科技金融,希望通过科技技术推动平安发展的新动力。平安科技打败了众多业界大企业,进入榜单前二,主要原因来自两方面。
第一方面,是基础技术本身。在许多国际人工智能比赛中,平安拿下的战绩相当不错。国际权威人脸识别数据库LFW最新公布的测试结果显示,平安科技的人脸识别技术以99.8%的识别精度和最低的波动幅度领先国内外知名公司,位居世界第一。可见,平安科技也有可能在人工智能的基础技术领域领先。第二方面,则是专业背景的加成。人工智能深度学习,针对具体场景需要大量的优化。这意味着在金融等细分的应用下,出身金融的平安相比其他人工智能从业者会在学习样本上有天然的优势,再加上算法上不吃亏,可能会具有更显著的优势。
在医疗方面,针对客户的在线问诊需求,平安推出了“AskBob智能医生”,可为医生提供个性化精准诊疗推荐和辅助决策。“AskBob智能医生”目前不仅服务于集团旗下公司,同时很多外部医生也在使用。在金融方面,平安银行利用大模型和人工智能(AIGC)技术对客户个人信息、历史借款记录以及消费行为等数据进行深度分析,并成功建立了一套精细的信用评级体系。基于该体系,他们可以为不同信用等级、借款需求和偏好的客户,量身定制出个性化的借款产品和服务。
平安是最早明确提出科技战略的金融公司,深入推进全面数字化转型,注重运用先进技术推动业务提质增效,人工智能是平安集团的五大核心技术之一。在核心技术的支持下,平安将持续引领行业。
我国语言大模型市场规模不断增加,在商业化进程方面也在不断提速。据央视新闻报道,工信部赛迪研究院数据显示,目前,我国已有超过19个语言大模型研发厂商,其中,15家厂商的模型产品已经通过备案。预计2023年,我国语言大模型市场规模将达到132.3亿元,增长率将达到110%。
△表1
此外,中国信息通信研究院有关负责人此前曾表示,大模型作为产业智能化基座,在识别、理解、决策、生成等任务中表现出泛化性、通用性、迁移性潜力,与实体经济深度绑定,在金融、工业、能源等领域进一步落地,持续释放技术红利。
申请人研发力分析
图4为发明申请期间,申请人研发力分析图。由图4可知,申请量靠前的申请人其主要技术领域均集中在G部物理,间或涉及一些H部电学及A部人类生活需要。其中,H部进一步主要集中在H04L小类,A部进一步主要集中在A61B小类。
△图4申请人研发力
G部:物理;H部:电学;A部:人类生活需要;
G06F:电数字数据处理
G06Q:专门适用于行政、商业、金融、管理或监督目的的信息和通信技术[ICT];其他类目不包含的专门适用于行政、商业、金融、管理或监督目的的系统或方法
G06K:图形数据读取;数据表达;记录载体;处理记录载体
G06V:图像或视频识别或理解
G06T:一般的图像数据处理或产生
G06N:基于特定计算模型的计算机系统[2006.01]
G10L:语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
G16H:医疗保健信息学,即专门用于处置或处理医疗或健康数据的信息和通信技术[ICT][2018.01]
H04L:数字信息的传输,例如电报通信
A61B:诊断;外科;鉴定。
申请人年度累计申请量分析
如图5所示,通过申请人年度累计申请量分析,可以看出专利申请人的专利申请趋势,进而分析其研发趋势。
△图5申请人累计量排名变化
从国内各大公司的年度专利累计量来看,腾讯、华为、北京航空航天大学的大模型智能体领域的研究相对较早,2015年已经形成了1件到2件的申请量,说明较早开始进行对此领域的研究。百度作为国内最大的搜索引擎公司之一,其旗下的北京百度网讯科技有限公司与百度在线网络技术有限公司的2016年累计申请量已经达到了10余件,与同时期其他公司相比优势显著,体现了百度在大模型智能体领域中领先优势。
腾讯虽然在专利累计量上被平安科技超越,但腾讯依然在大模型领域发挥着其影响力。日前,甲子光年智库发布AI大模型测评报告指出,腾讯云的行业大模型位居国内第一梯队,市场地位得到认可,商业化落地潜力大。腾讯云在2023年6月发布了行业大模型解决方案,面向文旅、政务、金融等行业,推出超过50个大模型应用实例。由此可见,腾讯在大模型领域建立了具有竞争力的商业模式和应用场景,让更多的企业用更低的成本,更高效地加速大模型在更多产业场景的落地。
△表2
03
专利状态分析
△图6各类型专利法律状态
如图6所示,实审状态专利量17198件,占比67.55%,主要是因为大模型智能体技术是近年来快速发展的领域,近两年专利申请量有明显增加且多为发明专利,审查周期较长;有效的专利案件达5871件,占比23.06%,也占较大比重,总的来说该领域的研究质量较高。
04
IPC分析
IPC技术构成分析
分析专利技术分布情况,可辅助企业或高校掌握该技术的主要研发方向或者选择技术空白、薄弱的点进行技术攻关。由图7可以看出,大模型智能体的主要研究方向集中在G06F小类,具体的涉及电数字数据处理。未来大模型智能体领域将更加深入研究,模型规模不断扩大、算法不断优化、应用场景不断拓展,逐渐与其他技术融合发展。
△图7IPC技术构成
IPC技术申报趋势分析
从图8可以看出,近几年的技术研发主要集中在G06F小类上,且随着技术的不断深入,在这领域上的研发有一定突破,从2016年至2022年专利申请量持续提升。此外,G06K、G06Q、G06V小类在2016年至2022年也有一定的增长。
△图8IPC技术申报趋势
05
国省代码分析
各省市专利申请量比例分析
如图9所示,广东、北京、江苏、上海等省市是大模型智能体领域的重要研究大省,其地区的研究机构和高等教育机构在大模型智能体方面扮演着关键的角色。这些省市在人工智能领域具有雄厚的科研和技术实力,吸引了大量的专业人才和研究者。
△图9各省市专利申请量比例分析
总体来看,大模型智能体的研究主要集中在经济发展较快且沿海地区。这是因为这些地区拥有先进的科技产业和信息技术基础设施,有更多的资源和机会来支持大模型智能体的研究和应用。同时,这些地区也面临着更多需求和挑战,对大模型技术的研究有着更为迫切的需求。
△表3
国外专利客观分析
图10为2003年至2023年的大模型智能体领域国外专利申请趋势。2003年至2016年的专利申请量较为平缓,维持在20件到40余件区间;2017年至2021年期间专利申请量迅速上升,2021年的专利申请量达成3713件,2022年的专利申请量虽然有小幅下滑,但依然维持在3000件以上。2023年的专利申请量由于数据不全,仅供参考。针对以上趋势进行了以下的原因分析。
△图10年度申请量分析
首先,对2017年至2021年的增长期间做了分析。此期间的专利申请量显著增长与OpenAI、谷歌两大公司有一定关系。2017年谷歌推出Transformer架构,为大模型的崛起奠定了基础。2018年谷歌推出基于深度学习和Tranformer模型架构的预训练语言模型——BERT模型。同样在2018年OpenAI推出GPT-1,之后经过不断更新迭代,到目前为止已更新至GPT4。OpenAI与谷歌是大模型领域的先驱者,加快了大模型技术的发展。在两大巨头公司的带动下,2017年至2021年迎来了大模型领域突飞猛进地发展。
申请国家申请量分析
△图11申请国家申请量
1.美国
美国牢牢占据主导地位,从人工智能的萌芽时期,到ChatGPT带来的大模型智能体浪潮,美国一直是人工智能领域的破局者,引领全世界人工智能的进一步发展。无论是算力、算法,还是数据,美国都牢牢占据着主导地位。尤其在算力方面,拥有大量的优质企业与核心资源,推动大模型智能体的发展。
美国拥有世界上最大的云企业。据统计,全球IaaS市场(基础设施即服务,InfrastructureasaService)中,包括亚马逊、微软、谷歌、IBM在内的美国企业合计占比近70%,这些企业可以提供大模型技术所需要的基础设施。
芯片也是影响算力的重要硬件设施,高性能的芯片可以提供更加高效的计算能力,从而加速训练过程。美国的英伟达(NVIDIA)是全球首家市值达到1万亿美元的芯片企业。英伟达研发出世界上首个轻量化小型超算——DGX-1,并捐献给了OpenAI。它的计算和存储能力相当于250台传统服务器,原先需要一年的计算量可以缩减到一个月即可完成。英伟达对OpenAI的支持加快了大模型智能体的发展。
在算力资源上,美国有领先优势,在算法和数据领域上,也不落后于其他国家。因此,目前行业具有代表性的大模型智能体集中在美国。综上所述,从国外的专利申请量来看,美国占据最大比例。
2.韩国
韩国紧跟随美国优势也较明显。韩国是最早加入大模型智能体研发的国家之一,有不错的硬件资源。三星电子是全球最大的动态随机存取存储器芯片制造商,SK海力士是全球第二大DRAM芯片制造商。再加上,韩国在人工智能工业与人工智能医疗方面的探索也非常积极,这些优势使韩国能在大模型智能体的发展浪潮中走在前列。韩国具有代表性的大模型智能体产品包括:韩国最大搜索公司——NAVER发布的HyperCLOVA、韩国另一家互联网巨头Kakao发布的基于GPT-3的KoGPT、LGAIResearch推出的Exaone、SKT推出的全球首个韩语大语言模型“ADot”等。
3.印度
近年来,印度的专利申请量增长非常迅速,这种趋势也体现于大模型智能体领域中。在国外专利申请量排名中,如表4所示,印度超过了日本,仅次于韩国,排名第三。印度虽然在大模型智能体的专利申请量上名列前茅,但也有其短板。印度的硬件设施相对落于其他国家,印度需要研发能够满足大模型计算需求的计算平台。根据最新报道称,印度的信实工业集团与全球人工智能的算力龙头——英伟达合作,将在印度设立超算设施、共建本土大模型。而后,英伟达又宣布,将与印度最大集团公司塔塔集团展开合作,称将提供用于开发人工智能能解决方案的计算基础设施和平台,两家公司将共同打造一款有下一代英伟达GH200GraceHopper超级芯片支持的人工智能超级计算机。
虽然在硬件设施方面印度不占优势,但印度作为人口大国有着丰富的人才储备和较强的技术实力。印度企业长期给国外企业提供软件外包服务,在人工智能领域也具有一定的技术背景。
△表4
通过申请人排行榜分析,如图12所示,可以明确哪些国家的企业、科研院所或个人在大模型智能体领域研究更加深入。
1.三星电子株式会社
△图12申请人排行
如图12所示,韩国的三星电子株式会社申请量领先。三星电子在大模型智能体领域中一直致力于技术创新,不断投入研发资源,提升大模型智能体的性能和效率。通过深度学习和机器学习等先进技术,三星电子的大模型智能体产品能够更好地理解和处理大量数据,为用户提供更加智能化的服务。
三星电子在硬件方面表现出色。公司拥有强大的芯片设计和制造能力,为大模型智能体的运行提供了强大的硬件支持,为大模型智能体的应用提供了更广阔的空间。最新消息称,三星在三星人工智能论坛上,正式公布了其自研的生成式人工智能模型“三星高斯”。据官方透露,三星将在其Galaxy旗舰手机当中引入GalaxyAI,并将推出AILiveTranslateCall功能,能够为用户提供个人翻译服务,三星GalaxyS24系列有望迎来这项AI功能。
2.LG电子股份公司
排名第二是LG电子股份公司,LG电子的研发主要集中在对话式AI、机器学习以及智能家居控制等方面。日前,LG推出了其产品——ExaOne2.0。据报道,LGAIResearch计划在化学、生物、医学、医疗、金融和专利领域中应用“ExaOne2.0”。
3.国际商业机器公司(IBM)
排名第三是国际商业机器公司(IBM)。IBM是全球领先的混合云、人工智能及企业服务提供商。IBM近期推出Granite系列大模型,Granite是为支持企业级大模型的训练而开发的。Granite大模型采用了特定领域的企业数据,10%的训练数据来自法律和金融,这使得信用风险评估、保险QA、对话式金融QA和总结财务任务具有卓越的性能。因此,对金融服务领域的客户或有法律需求的客户来说,Granite是一个值得推荐的绝佳模型。
亚马逊技术公司和微软公司均入榜,其主营业务包括自然语言处理、智能客服、智能家居等领域。埃森哲环球解决方案有限公司也名列前茅,该公司在大模型体应用方面不断创新,结合自身业务领域和市场需求,为客户提供定制化的智能体应用解决方案,其应用涵盖了多个领域,如智能客服、智能推荐、智能预测等。此外,韩国的光州科学技术院、电子部品研究院、高丽大学校产学协力团以及日本索尼集团的子公司索尼电脑娱乐有限公司也在排名上。
△表5
△图13申请人研发力分析
图13为专利申请期间的申请人研发力分析图。如图所示,申请量靠前的几位申请人的主要技术领域均集中在G部物理,间或涉及一些H部电学与A部人类生活需要。其中,G部进一步主要集中在G06N、G06F、G06Q小类。
G部:物理;A部:人类生活需要;H部:电学;
A61B:诊断;外科;鉴定
H04L:数字信息的传输,例如电报通信。
申请人年度申请量分析
△图14申请人年度申请量
△表6
在经历了大模型的热闹与喧嚣之后,商业落地成为大模型价值评估的关键维度,为行业而生的大模型将成为大模型的主战场。对于技术和产品齐备的企业来说,当下的“必争之地”,就是具备更好的商业落地价值,从而得到市场的认可。
△图15IPC技术构成
△图16IPC技术申报趋势
从图16观察到的数据可以提供有关不同小类研发重点领域的信息。2016年之前没有形成技术集中领域,2017年开始逐渐形成技术集中领域。其中,G06F、G06N、G06Q领域占比最大,除以上三个小类以外的其他小类相差并不大。
IPC技术申请人分析
△图17IPC技术申请人
如图17所示,三星电子在G06N领域的研究较为深入,其次是G06F领域,这两类占据了大部分专利。G06N小类主要涉及基于数据或模型的智能处理,而G06F小类则主要涉及数字计算或数据处理。三星电子在此小类中涉及的业务可能包括深度学习算法和模型优化、自然语言处理技术、计算机视觉技术、数据处理和分析技术等。
除此之外,LG电子、国际商业机器公司、微软公司等也在G06N小类领域也进行了研究。国际商业机器公司(IBM)和微软公司是两家在人工智能领域有着显著影响力的公司,在G06F和G06N小类上也表现出了相当的投入和技术突破。其中,LG电子在G06N小类中与国际商业机器公司差异并不大,但LG电子在G10L等其他领域上覆盖的范围更为广泛。G10L为语音分析或合成、语音识别、语音或声音处理、语音或音频编码或解码领域,这可能与LG电子涉及的智能家居产品有关。
专利主观分析
重点企业申请人
百度网讯科技有限公司
△图18百度网讯全球专利申请地域
大模型智能体已经成为全球科技竞争的重要战场,各大企业都在通过技术创新和产品研发来寻求突破。在这场竞争中,百度以其深厚的技术储备和强大的创新竞争力,成为大模型技术的领先者和AI原生应用的先行者。展望未来,期待百度为代表的科技企业能够继续发挥在大模型智能体领域的优势,推动创新创业发展,构建繁荣的AI应用生态。
△图19百度网讯专利主要发明人
平安科技(深圳)有限公司
△图20平安科技全球专利申请地域
平安科技是中国领先的科技公司之一,其金融、医疗、智能制造等领域都在积极应用人工智能技术,对大模型智能体领域的技术研发和应用需求非常高。平安科技有限公司的总部平安集团强调通过核心技术能力持续引领行业。平安科技的专利融入业务的各个环节,大模型智能体的落地优势显著,受到了市场较高的评价。
平安科技作为平安集团旗下科技解决方案提供方,致力于运用人工智能、云计算等前沿科技。
人工智能是平安科技的核心技术之一。平安科技推出的疾病预测AI已应用在流感、糖尿病等多种疾病的预测中。不仅如此,平安科技还自主研发了平安云,使平安云成为金融行业内最大的云平台。平安云以金融为起点,深度服务于金融、医疗、汽车、房产、智慧城市五大生态圈。
△图21平安科技专利主要发明人
平安科技在大模型智能体领域的主要发明人为王健宗,参与并主导了532项发明专利技术的申请研发。在过去的几年中,平安科技在王健宗的带领下,不断改进和创新大模型智能体技术。王健宗提出的智能语音识别方法装置以及一种计算机可读存储介质,可以将用户的语音转换为文字输出,体现了技术实力和创新能力。
重点科研院校申请人
北京航空航天大学
近年来,北京航空航天大学团队在大模型智能体领域中取得了显著的研究成果。根据报道,北京航天航空大学的无人机团队将大模型技术应用于无人机上,对无人机做了进一步升级。
北京航空航天大学无人机团队提出一种基于多模态大模型的具身智能体架构——“AeroAgent”,应用于无人机操控。这种架构将大模型视为“大脑”,可实现高效通信,区别于传统的端到端的机器人大模型控制。“AeroAgent”使得智能体可以集中于高层级命令的产生,对于高层级任务具备更强的智能性,对于实际的执行具备更好的鲁棒性(指在面对意外或异常情况时,是否能够保持功能和性能,而不至于崩溃或失效)和可靠性。“AeroAgent”在仿真和实际测试中表现出色,例如火灾搜救、着陆任务、风机巡检、导航等场景中展现出优越性能,具有广泛的应用前景。
此外,该团队还研究了基于深度强化学习的无人机自主操控方法。通过将深度强化学习算法应用于无人机飞行控制,使无人机能够在复杂的动态环境中自主决策和执行任务。这些研究进展为无人机操控领域提供了新的思路和方法,为未来的无人机应用提供了更广阔的可能性。
△表7
从表7可以看出,北京航空航天大学通过多年的研究收获了一定的成果。北京航空航天大学2019年的专利数量有一定的突破,说明解决了部分技术难题。2020年开始每年的专利申请数量递增,直到2023年专利申请量达到了34件,意味着大模型智能体在航空航天领域上也具有更多应用可行性。
△图22北京航空航天大学专利主要发明人
国外重点申请人
三星电子
三星电子是韩国最大的电子工业企业,总部位于韩国京畿道城南市。三星电子是三星集团的重要子公司,涉及电子产品、半导体产品、显示器产品等多个领域,在全球范围内拥有广泛的市场和影响力。
三星电子在大模型智能体领域的发展主要体现在其人工智能技术和产品的应用上。三星电子正在不断地将其人工智能技术融入到各个领域,比如家庭、健康和机器人领域等。
三星电子将大模型技术应用于其产品中,例如智能手机、电视、家电。通过搭载大模型技术,这些产品实现了更加智能化的功能和服务,提高了用户体验,也为三星电子带来了更广阔的市场前景。三星电子在大模型智能体领域的技术创新始终保持领先地位。研发团队不断优化算法、提高计算效率、降低资源消耗,取得了重要突破。同时,三星电子还积极探索新的应用场景和技术趋势,例如5G、物联网、边缘计算等,为大模型智能体的进一步发展提供了有力支持。
△图23三星电子全球专利申请地域
如图23所示,三星电子在全球范围都申请了专利,除韩国、美国之外,他们还向中国、印度、日本等国家进行专利布局。其中,主要以韩国与美国为主申请了专利,向两个国家申请的专利数量相差不大。三星电子在美国的专利较多可能是因为在美国的业务规模庞大,需要在当地申请专利以保护自己的商业利益。
△图24三星电子技术专利技术构成
随着大模型智能体应用场景的不断拓展,三星电子将继续加大投入和研发力度,并探索新的应用场景和技术趋势,如增强现实、虚拟现实等新兴领域,为大模型智能体的进一步发展提供更多可能性。同时,继续加强与外部的合作,共同推动大模型智能体技术的发展和应用,为人类带来更加智能化、便捷化的生活体验。
国际商业机器(IBM)
国际商业机器公司是一家全球知名的科技公司,总部位于美国纽约州阿蒙克市,简称IBM。IBM主要的产品包括服务器、存储设备、网络设备、软件等,同时提供信息技术咨询、业务流程外包等服务。除此之外,IBM还致力于人工智能、云计算、区块链等领域的研究和开发。
IBM在人工智能领域有着深厚的积累和领先的技术实力,在深度学习、自然语言处理、机器学习、计算机视觉等领域有着深厚的研发基础。并且IBM与全球众多高校、研究机构以及业界领先企业建立了紧密的合作关系,共同推动大模型智能体技术的发展。在大模型智能体方面,IBM推出了多款产品以及服务,如AI咨询服务、AI平台等,为企业提供了全面的AI解决方案,这些产品和服务已在全球范围内得到广泛应用,并为企业带来了显著的效益提升。IBM的人工智能解决方案广泛应用于各个领域,如金融、医疗、制造、零售等。
△图25国际商业机器公司专利申请趋势
如图25,IBM的专利申请量从2018年开始显著增加,增长势头一直维持到2021年,达104件。2022年的专利申请量相比2021年的104件虽然有一定的降幅,但也达成了不少的专利申请量,52件。2023年的数据由于统计不全,仅供参考。
△图26国际商业机器公司全球专利申请地域
从全球专利申请地域来看,IBM的专利布局多数在美国,美国申请专利达到212件。与此同时,向中国和日本也布局了少量专利,中国申请专利为24件、日本申请专利为21件。说明IBM的主要业务战略布局在美国本地。后续,IBM可以进一步扩大对外的业务,提升对全球范围内的影响力。中国作为全球最大的市场之一,具有巨大的潜力和机遇,IBM可以在中国市场保护自己的知识产权,寻求中美两国市场的发展机遇。
总结
随着人工智能技术的飞速发展,大模型作为一种先进的计算模型,已经在各个领域得到了广泛应用。大模型通常具有规模庞大、泛化能力强、适用范围广的特点,其强大的计算能力和泛化能力,能够在各种任务中表现出色,还可以通过微调等方式适应不同的应用场景,具有很高的灵活性。
大型语言模型为大模型的代表,如OpenAI的GPT系列、谷歌的BERT系列。OpenAI不仅展现了GPT在人机对话中的超预期表现,同时基于GPT的应用生态也已逐渐繁荣。微软的数款产品(Bing、Windows操作系统、Office、浏览器、PowerPlatform等)、代码托管平台GitHub、AI营销创意公司Jasper等均已接入GPT。谷歌虽然前期并没有大规模推出大模型智能产品,但在ChatGPT的带动下,谷歌也推出了聊天机器人Bard及PaLM2。除GPT系列和BERT系列以外,常见的大模型还包括ERNIE系列、T5系列、ViT系列、ResNet系列、YOLO系列、SSD系列等。
从技术路线来看,国内大模型主要追随国外进展。基于谷歌在人工智能领域的影响力,前期我国企业在大模型领域的探索更多参考BERT路线。随着ChatGPT在人机对话领域的超预期表现,验证了高质量数据反馈激励的有效性,国内大模型技术路线也逐渐向GPT方向收敛。下一阶段对GPT方向的研发突破将是竞争关键。
从全球范围来看,中美在大模型领域引领全球发展。基于算法模型的领先优势,美国的大模型数量居全球首位。根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的《中国人工智能大模型地图研究报告》,截至2023年5月,美国已发布100个参数规模10亿以上的大模型。
中国自2021年以来加速产出大模型产品,如2021年6月北京智源人工智能研究院发布的1.75万亿参数规模的悟道2.0、2021年11月阿里发布的10万亿参数规模的M6大模型等。截至2023年5月,我国已发布79个大模型。但考虑到数据安全、隐私以及科技监管等因素,中美的大模型市场有望形成相对独立的行业格局。
大模型具有广泛的应用场景,如强化学习中、自然语言处理、图像和视觉任务等等。通过大模型和人工智能体的结合能够带来更强大的智能,使得大模型智能体在各个领域达到更优的性能。通过不断迭代和改进,大模型智能体技术将在实际应用场景中得到更广泛的应用。