10分钟读懂:全面解析AI大模型

不懂代码、不懂数学、不懂数据库,也能了解大模型。

因为产品经理可以不懂技术,这就导致在了解新技术特别困难,下面我会用极简的方式介绍什么是AI大模型。

一、名词解释

1.1参数

参数是指模型的大小,一般来说参数越大,模型的能力越强。大模型的参数单位一般用“B”来表示,1B代表10亿参数。

以下面的两张图为例,第一张图是阿里百炼平台的模型广场,另一张图是欧拉玛的模型广场,这里面的模型基本都会按照“名称”+“版本”+“参数”的形式分类。

参数的单位基本都是“B”,但是因为有些模型不是通用大模型,而只是适用于某些领域的小模型,所以参数量会比较小,单位为“K”或“M”。

单位包括:K(千)、M(百万)、B(十亿)、T(万亿)。

阿里云百炼

欧拉玛(Ollama)

参数越大那么模型就可能会占用越多的存储空间,但因为不同模型对于权重、精度、压缩技术的处理方式不同,所以参数与存储空间并不是线性关系。

你如果问7B参数大小的模型占用多少内存空间,我只能说不知道,这要看具体的模型.每家模型训练的不一样,那么相同参数的情况下所占用的存储空间也是不一样的。就好像同样是6年纪的小学生,有的身高一米五、有的身高一米七一样。

1.2token

token是大模型处理数据的最小单位,比如一个字、一个词、一个像素、一段音轨等。

我们试着将下面的句子拆分成最小单位:

–“你好!”–,这一段话,可以将其拆分为:“你”、“好”、“!”,这三个最小单位。

–“我想吃虾丸。”–,这一段话,可以将其拆分为:“我”、“想”、“吃”、“虾丸”、“。”,这五个最小单位。

这两句话在拆分时有一点不一样,第二句话的“虾丸”并没有拆分成两个字,而是以词的形式做了拆分,原因是“虾丸”作为名词,已经无法在进行拆分了,如果拆分为“虾”、“丸”两个字,那就导致句子失去了原有的含义。

代码是怎么进行拆分的呢?基本逻辑就是将一句话中的词挑出来,剩下的就可以作为字来处理。

中文分词工具包括:THULAC(TsinghuaUniversityLanguageAnalysisandComputing、HanLP(HanLanguageProcessing)、LTP(LanguageTechnologyPlatform)等。

另外对于大模型的提供方已经内置分词功能了,或者说大模型本身就有分词能力,不需要我们在做额外工作。

1.3上下文

一段话的周围信息就是上下文,例如连续问大模型两个问题,这两个问题及回答互为上下文。

日常在沟通过程中,相同的问题我们会因为场景不同得出不同的结论。

开需求评审会时,我们会问技术同学、测试同学对需求有什么问题?技术同学会从技术的角度回答需求有什么问题、测试同学会从测试的角度回答测试的问题。假如此时我们冲着门外的设计同学询问他们有什么问题,设计同学会一脸懵,因为他们不知道你是因为什么原因问的这个问题。

回到图片示例的大模型问答上,当我问“包含哪些部分”时,大模型会基于第一句话理解我的意图,再做出对应的回答。

1.4多模态

是指可以处理多种类型的数据,比如纯文字、图片、文档等,而单一模态的模型是指只能处理文字或图片或声音的模型。

下面的通义模型,可以上传图片、文字、文档数据,就是多模态大模型。

下图的openai提供的一系列模型皆为多模态模型,可以上传图片、文字。GPT3只能输入输出文字,所以是单一模态的模型,但是目前openAI已经不提供GPT-3及以前的模型了。

1.5温度

是一个调整模型回复的随机性的值,值越大随机性越高,回复越有创造性;值越小随机性越小,回复越重复老套。

温度值设置为最低时的回复(ChatGPT):

温度值设置为最高时的回复(ChatGPT):

1.6向量值(词向量)

向量是用来描述token在高维世界的特征,数学领域中的向量是一个的数字列表,在一维空间中,位置可以用(x)表示;在二维空间中,则用(x,y,)表示。以此类推,三维空间(x,y,z),四维空间(x1,x2,x3,x4)……

如果道单选题,题目给出了海豚、马、兔子、骆驼这四种动物,让我们挑选出不一样的一种动物,应该怎么选?

我希望你的答案是海豚,因为海豚生活在海里,其他动物生活在陆地上。当然你要非说是骆驼,因为体型大;非说是兔子,因为兔子钻洞;非说是马,因为速度快,那我也没办法。毕竟人就是通过各种各样的特征去了解事物的,总能找到那个不一样的特征。

那怎么让计算机知道这些特征从而理解世界呢?我们可以将这些特征提取出来,如果提取1个特征,比如是不是陆地生物;如果提取两个特征,比如体型的大小。

只有“陆地生物”这一个特征的时候,越是符合这个特征则越靠近右侧,为了方便知道其位置,可以给一个坐标。如果增加“体型”这个特征的时候,那么每一个动物也就拥有了二维坐标。如果继续增加特征呢,那每个动物就会拥有三维坐标、四维坐标、五维坐标……

用图像肯定不方便表示,计算机中也不可能放一张无限维度的坐标图,但是计算机中可以存储每个动物的坐标位置,每一个数字就是对应了一个特征的值,通过动物之间数字的对比就可以知道每个动物之间的差异及内涵。

那计算机是怎么知道这些特征和数值大小的呢?可以靠计算机学习,让神经网络学习大量资料后,让计算机去区分每一个token的特征和特征的值。

二、大语言模型(LLM)2.1为什么叫大语言模型?

能听懂人话并且和人沟通的模型,叫做大语言模型。

大语言模型主要是处理语言的,处理什么数据就叫什么模型,除了语言模型还有处理视觉、音频、生成数据等其他作用的模型。

如果有人开发出了画原型图的模型,也可以叫它“原型图模型”。

多模态模型也就是综合了语言模型、视觉模型等多种模型能力的大模型。因为每一种模型的作用是不相同的,为了让大模型的能力更强更方便使用,所以产生了多模态大模型,也就是即可以听懂人话,也可以看懂图片是什么意思。

2.2为什么大模型能够听懂人话?

我们并不确定计算机理解人类的语言还是概率运算的结果。

我们可以教会鹦鹉说“你好”,那我们可以说鹦鹉听懂了人类的语言吗?不可以,因为我们明确的科学的可以知道鹦鹉只是重复音节。

大模型则是通过了大量的文本训练,学会了语言中的各种沟通方式、文字与文字之间的排列规则、语法的结构。通过这一系列的规则运算,给人一种可以听懂人话的感觉。

要了解大模型是怎么变得这么厉害的,那就需要从头开始说了。

为了使机器能够通过图灵测试,研究人员开始研究人类语言。因为人是地球上拥有最高智慧的物种,而语言是人类沟通过程中最重要工具,更是智能的表现形式。

具体怎么研究语言呢?最直接的方式就是从语言的规则下手。比如n-gram模型,就是根据人类的语言习惯,通过前面的字来预测后面字的方式让计算机实现语言功能的,而且现在的大模型也是站在n-gram模型的肩膀上发展出来的,了解n-gram模型就能够很清楚的知道现在的大模型的实现逻辑。

①入门级模型:n-gram模型

n-gram模型前面的N是指用几个词来预测下一个词;如果我们用前面的两个词来预测下一个词,这就叫做2-gram;如果用前面的三个词来预测下一个词,这就叫做3-gram。

为了能够理解n-gram模型,我们可以举个例子。

有一个数据集,里面只有两句话。

我们需要先将这两句话拆分token,也就是“我”“喜欢”“吃”“苹果”“香蕉”。

根据概率推算,“我”后面必然会跟着“喜欢”两个字,概率是100%;那么当我们输入“我”这个汉字的时候,系统就会根据概率,输出“喜欢”这个词,可见下图。

如果规定模型持续运行直到生成一句话,那么模型就会根据概率生成“我喜欢吃苹果”或者“我喜欢吃香蕉”,因为“苹果”和“香蕉”两个词的概率都是50%,那么系统会随机生成。

但是n-gram模型也有很多缺陷,因为n-gram模型是先假设每一个词都是互相独立存在,彼此没有关系的。但词语和文字却是有实际意义的,所以就导致模型没法理解上下文,没办法解决句子中的逻辑关系。如果出现了新词语,也没法理解其用法,纯粹是概率计算。

直到后来,出现了神经网络技术。

②大模型核心角色-神经网络

神经网络是通过模仿大脑处理信息的方式而产生的计算模型,是为了解决图像识别和逻辑运算的。

经典的神经网络可以分为三层结构,输入层、隐藏层、输出层,每一层都是由一堆神经元组成。

总结一下就是,每个神经元作为一个计算单元,通过对输入数据进行加权求和并应用激活函数来提取有用的特征,然后将处理后的信息传递到网络的下一层。在网络的输出层,对于分类任务,神经元可以输出表示不同类别的概率值。

具体到图像识别任务,图像是由像素构成的,每个像素都有其特定的色值。以数字“6”为例,我们可以给计算机大量数字6的图片,计算机会将图像分解为像素,然后将颜色转换成色值,并分析这些色值的分布规律。

最终,当模型遇到新的、未见过的数字6图片时,它能够基于已学到的规则将其识别出来。如果给神经网络提供大量高质量且标注准确的数据,那么神经网络就可以拥有解释图像信息的能力。

虽然神经网络这么厉害,但因为早期的硬件限制,导致发展并不顺利。前面我们可以得知,神经网络是通过大量神经元构成的,而每个神经元只负责简单的运算,这种方式要求硬件能提供强大的并行处理能力,以同时执行这些大量的简单运算任务。但当时训练神经网络只能依靠CPU且性能还有限。

随着计算机硬件技术的发展,特别是GPU的引入,这才让神经网络的硬件环境得到改善。硬件技术的发展让研究人员能够去设计和训练更复杂的神经网络结构,比如卷积神经网络、循环神经网络、注意力机制、预训练等。而现在的大模型都是基于神经网络架构的,可以说没有硬件的发展、没有神经网络的发展,就没有目前的大模型。

而Transformer架构是神经网络中最主流的,当前的大语言模型几乎都是基于Transformer架构搭建的。

③主流架构-Transformer架构

Transformer架构是特别适用于自然语言处理的神经网络模型。

Transformer架构能够如此厉害,在于Transformer架构能够通过向量数据、自注意力机制、神经网络等能力,高效地处理和理解自然语言。

向量数据:每个token被转换为了高维向量,通过token的向量值,可以知道词汇本身的语义信息、特征,还能分析出token与token之间的复杂关系。

自注意力机制:输入到神经网络的每一个token都可以与其他token发生联系,并且通过“权重”来区分链接过程中的重要程度,这样可以让大模型解决上下文关联问题,避免提问第二个问题的时候忘记第一个问题。

神经网络的能力:通过全新的神经网络结构,不仅能捕捉局部特征,还能理解全局信息,从而支持更深层次的语言理解和生成任务。

国外的openai、谷歌、微软,到国内的阿里、腾讯、清华的团队等,都是基于或借鉴Transformer架构开发的大模型。

,这是一个LLM可视化网站,可以清楚的看到大模型每一步的工作细节。

三、大模型实践方法3.1提示词工程

提示词功能的作用在于通过设定提示,让大模型的回答更加精准。

大模型训练时并不会针对特定领域,是为广泛问题进行设计的。而提示词工程(PromptEngineering)也叫上下文提示,目的是希望大模型在回答问题时,可以得知前因后果,聚焦用户的特定需求。

也就是无论形式如何,只要能够让大模型得知你的需求就是提示词,只要让大模型给你想要的答案就是好的提示词,哪怕你问的是“1+1等于几?”。

比如你让大模型扮演某个角色,你可以告诉大模型:“你要扮演鲁迅,回答的风格要与鲁迅的作品类似”。那么大模型就会扮演鲁迅且通过鲁迅的说话风格回答你的问题。

而在创建智能体时,也会让用户填写智能体的设定,这个设定就起到了提示词的功能。

工作原理如下:

(C)背景:提供任务的背景信息

(O)目标:明确你希望LLM执行的任务是什么

明确你的目标有助于LLM集中精力实现该特定目标。

(S)风格:指定您希望LLM使用的写作风格

这可能是某个名人的写作风格,也可能是某个行业的某个专家,比如商业分析师或CEO。这将指导LLM以符合您需求的方式和措辞进行回复。

(T)语气:设定回应的态度

这确保LLM的回应与预期的情绪或情感背景产生共鸣。例如正式、幽默、富有同理心等。

(A)受众:确定回复针对的对象

根据受众(例如某个领域的专家、初学者、儿童等)定制LLM的回应,确保它在您需要的背景下是适当且易于理解的。

(R)回复:提供回复格式

这可确保LLM输出的格式与您执行下游任务所需的格式完全一致。示例包括列表、JSON、专业报告等。对于大多数以编程方式处理LLM响应以进行下游操作的LLM应用程序而言,JSON输出格式是理想的选择。

如果我们希望大模型可以帮产品经历写一份年终总结,就可以按照CO-STAR框架编写提示词。

背景:我是“XXXXX”公司的产品经理,负责XXXXXX应用。在过去的一年中,我们实现了多项功能升级,并且用户基数有了显著增长。

目标:编写一份全面的年终总结报告,概述本年度的关键成就、遇到的主要挑战及解决策略,并简要介绍下一年的战略规划。

风格:采用清晰、专业的商务写作风格,类似于业界公认的产品经理或公司领导人的表达方式。

语气:正式而积极,体现对团队努力的认可以及对未来发展的乐观态度。

回复:请按照标准的年终总结格式提供文档,包括封面页、目录、引言、年度回顾、主要成就、面临的挑战与解决方案、未来展望等部分。文档需保持专业性,重点突出。

如果不会写提示词怎么办?没关系,可以复制文中的工作原理,把写提示词的工作交给大模型。

虽然可以通过CO-STAR框架中说明了提示词该怎么写,但我们的重点并不在于如何编写提示词,而在于让大模型给出我们满意的答案。

3.2知识库

知识库就是资料库,目的就是为大模型处理问题提供必要背景知识。

虽然大模型擅长处理广泛领域的常见问题,但在面对特定领域内深入且专业的问题时存在局限性,而知识库提供了特定领域的信息,帮助其解决特定问题。

如果希望大模型帮助企业优化供应链管理,那么大模型就需要知道供应商信息、库存水平、物流数据、采购数据等信息。如果希望大模型能够帮助系统应用,那么大模型就需要知道项目管理流程、技术文档、操作说明书等信息。而这些信息就需要存放到知识库,作为大模型的知识储备。

chatgpt的存储功能

阿里百炼的数据管理功能

这里需要注意,大模型和知识库是两种不同的技术,只是针对于特殊问题需要知识库提供特定信息。

所有的数据都需要存储在服务器上,常见的数据库类型包括关系型数据库、非关系型数据库,这些数据库可以有效地存储和管理结构化与非结构化数据。然而对于大模型来说,这些传统的存储方式并无本质区别,它们更像是文件夹,用于存储和检索信息。

并不是知识库的数据就需要向量存储,只是需要处理相似性任务的时候,需要用到向量数据库。

前面提到大模型时也有提到,大模型的本质是概率计算,通过token与token之间向量值的对比来生成数据,这种基于向量的计算方式使得大模型能够理解和处理复杂的模式和关系。只要任务需要用到数据与数据的相似性对比,那么就需要用到向量数据库,可见第一部分的向量词。

3.3微调

微调就是让通用的大模型,更加适用于某个特定项目。

如果大模型是一个大学生,知识库相当于公司资料,而微调工作就相当于入职培训,培训其如何与客户继续沟通。

微调的目的是通过使用实际案例来优化大模型的表现能力,使其更符合特定应用场景的需求。无论是像ChatGPT还是通义这样的大模型,都是采用一问一答的形式进行。

通过提供企业自身的实际案例,微调过程可以让大模型学习到更加精准和符合企业需求的回复方式,从而使通用的大模型能够高度适配企业的具体业务场景。这样不仅提升了模型的实用性,还增强了其在特定领域中的表现力和准确性。

四、最后

对于AI产品经理来说,我们的核心工作是应用大模型,而不是作为大模型的研究者。无论各研究团队推出了什么新的架构,对于产品来说都不重要,重要的是如何将其集成到现有的系统中。至于如何集成到系统,不同公司有不同的解决方案,这些就需要在工作中探索了。

本文由@入幽原创发布于人人都是产品经理,未经许可,禁止转载。

THE END
1.ai大模型和小模型的区别ai大模型和小模型的区别 人工智能领域中的模型分为两种,一种是大模型,另一种是小模型,两者在训练和应用中有着明显的区别。 本文将从定义、特点、应用等方面详细介绍这两种模型的区别。 一、概念定义 ,大模型通常指参数数量较多、结构比较复杂、精度较高、计算量较大的模型。它们能够处理更复杂的问题,能够提高模型...https://m.elecfans.com/article/2207224.html
2.AI大模型应用入门实战与进阶:Part16AI大模型未来趋势1.背景介绍 随着人工智能技术的发展,AI大模型已经成为了许多领域的核心技术,例如自然语言处理、计算机视觉、推荐系统等。这些大模型通常具有高度的参数量和复杂性,需要大量的计算资源和数据来训练和优化。在这篇文章中,我们将探讨AI大模型的未来趋势,以及如何应对其所面临的挑战。 https://www.jianshu.com/p/f3b441e1fbe4
3....哪家公司研发的kimichat语言模型性能详细介绍kimi人工智能作为一款备受关注的产品,其出色的性能和广泛的应用领域引发了人们对其研发公司的浓厚兴趣。那么,究竟是哪家公司研发了这款引领潮流的人工智能产品呢?小编这里整理了些相关资料,快来和我一起看看吧! kimichat语言模型性能详细介绍 1、Kimi智能助手是由国内AI公司月之暗面开发的,创始人是杨植麟。 https://www.crsky.com/zixun/592457.html
1.一文让你搞懂什么是AI大模型(非常详细),零基础入门到精通,看这一篇就够...大模型的复杂性使得其内部机制难以解释,如何提高模型的透明度和可解释性是一个重要研究方向。 尽管如此,AI大模型的未来依然充满希望。随着计算能力的提升和算法的不断优化,大模型将在更多领域展现出其强大的能力和应用前景。 结语 通过本文的介绍,相信你已经对AI大模型有了全面的了解。无论是自然语言处理、图像识别,...https://blog.csdn.net/weixin_49892805/article/details/142652947
2.探索AI大模型的分类方法与技术在人工智能领域,AI大模型是指参数量庞大的深度学习模型,拥有强大的学习能力和推理能力,能够解决更加复杂的问题和任务。在技术层面,AI大模型的分类方法与技术主要包括模型结构、训练策略和推理加速等方面的技术突破。以下将详细介绍这些技术方面的发展和应用。 https://yaotai.163.com/cs/metaverse/ZsKcwY4BLmgvlgK6_Shl.html
3.AI大模型应用入门实战与进阶:大模型在知识图谱构建中的应用...1.背景介绍 知识图谱(Knowledge Graph, KG)是一种以实体(Entity)和关系(Relation)为核心的数据结构,用于表示实际世界的知识。知识图谱的应用范围广泛,包括信息检索、问答系统、推荐系统、语义搜索等。随着大规模机器学习(Deep Learning)和自然语言处理(Natural Language Processing, NLP)的发展,大模型(Large Model)在知...http://www.zhangshiyu.com/post/68325.html
4.人工智能大模型原理与应用实战:大模型的基本概念51CTO博客1.背景介绍 人工智能(Artificial Intelligence, AI)是计算机科学的一个分支,研究如何使计算机具备人类智能的能力。随着计算能力的提升和数据量的增加,人工智能技术在过去的几年里取得了巨大的进展。在这一进程中,大模型(Large Models)发挥了关键作用。大模型是指具有大量参数(通常超过百万或千万)的机器学习模型,它们可以...https://blog.51cto.com/universsky/8997109
5.关于举办AIGC技术与大模型应用实战师资培训的通知同时为助力战略性新兴产业融合集群发展和现代化产业体系建设,以实现高水平科技自立自强、建成教育强国、科技强国、人才强国的远大目标,深圳信息职业技术学院(通信类国家级职业教育“双师型”培训基地)结合当前新兴产业技术发展趋势与人才培育需求,拟定于2024年4月11日-17日举办“AIGC技术与大模型应用实战师资培训”活动,...https://www.sziit.edu.cn/info/1038/16020.htm
6.万字长文详解:大模型时代AI价值对齐的问题对策和展望在弱人工智能时代,人们可能难以设想一个具有通用任务执行能力的AI存在如此具体紧迫的危险,但在大语言模型(LLM)爆发式发展的今天,我们需要更好地理解并能够具象化感知这一危险发生的可能性。因此,本文将从这一带有科幻色彩的故事走入,将AI价值对齐拆解为几项比较具体的研究方向,从学术的角度进行详细阐释。https://36kr.com/p/2469833834666113
7.“积极拥抱AI大模型”!腾讯云胡利明发声问:能否简单介绍AI大模型对于金融机构有何价值? 胡利明:本轮AI大模型热潮给包括金融行业在内的各行各业都带来了深远的影响。AI大模型通过大规模的参数和预训练技术,使得AI具备了比过去更强大的理解能力和表达能力,因此应用场景非常广泛。 对于金融机构而言,善用AI大模型,就相当于配备了一群不限数量的优秀“大学毕业...https://finance.eastmoney.com/a/202309102842760628.html
8.大模型综述:万字长文详解AI大模型的原理应用与未来趋势(非常...在自然语言处理(NLP)和人工智能(AI)的浩瀚星空中,大语言模型(Large Language Models, LLMs)如同一颗璀璨的新星,正在改变我们与语言、与机器交互的方式。本章将带您踏上一段探索之旅,揭示大语言模型的发展历程、独特魅力及其在现实世界中的多彩应用。 1.1 语言模型的进化史 ...https://www.jindouyun.cn/document/industry/details/236141
9.公司介绍蜜度Midu公司介绍 蜜度科技股份有限公司 坚持以实用的AI产品,为客户创造更大价值使命 科技赋能千行百业愿景 蜜度成立于2009年,是一家以人工智能技术为核心的语言智能和垂直大模型企业,专注于多模态、多语言智能科技,以数据与AI算法双轮驱动,赋能千行百业实现数智化转型升级。 蜜度基于自主研发的蜜巢、文修两个垂直大模型,利用...https://www.midu.com/about
10.AI摄影仅需要了解这几款AI绘画大模型!一秒生成胶片风拍立得...介绍 随着AI技术的快速发展,AI绘画技术也在不断进步。 通过训练大模型,AI能够学习并复现现实世界中的各种人和事物,使生成的照片具有更高的真实性和艺术性。加上最新新的AI绘画模型不断涌现,为用户提供更多选择,使得生成的照片更加多样化和精致。 我向你推荐三个时下最火热的真实人大模型,并与你分享利用各种embe...https://www.yizz.cn/3127.html
11.全球十大最强大模型AI大模型实力排名全球知名大模型盘点→...人工智能技术是全球科技竞争的重要领域,全球数家科技公司已加快布局和发展人工智能产业。本文中Maigoo小编将带大家看看全球十大最强的AI大模型,如ChatGPT、Claude、Gemini,以及LLaMA、MPT、StableLM、Falcon、通义千问、文言一心等都较具代表性。下面一起来详细了解下这https://www.maigoo.com/top/440978.html
12.使用Jmeter对AI模型服务进行压力测试腾讯云开发者社区在上文我们介绍了如何使用腾讯云的GPU部署大模型,我们使用了FastChat框架部署了ChatGLM3-6B的模型。 但是通常我们在对模型选型时,还需要对大模型进行评测。 在评估AI模型时,我们除了要关注模型本身的性能指标外,还需考虑提供的模型服务性能、吞吐量以及并发性等方面。本文将介绍如何利用JMeter进行压力测试,并获取关键的...https://cloud.tencent.com/developer/article/2356687
13.一周AIGC丨Pika完成5500万美元融资,国内首套AIGC汉服亮相韩媒:三星 Galaxy Book 4 系列笔记本 12 月 15 日发布,将支持本地运行高斯 AI 大模型 据IT之家援引韩联社报道,有业内人士透露称,三星电子将于本月 15 日推出搭载英特尔下一代处理器酷睿 Ultra 的 Galaxy Book 4 系列笔记本电脑,号称是全球首款 AI 笔记本。 https://www.thepaper.cn/newsDetail_forward_25540020