写给小白的大模型入门科普

大模型,英文名叫LargeModel,大型模型。早期的时候,也叫FoundationModel,基础模型。

大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训练,是一项技术,我们后面再解释。

我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(LargeLanguageModel,也叫大语言模型,简称LLM)。

除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大模型。

从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网络模型。

这是一个全连接神经网络(每层神经元与下一层的所有神经元都有连接),包括1个输入层,N个隐藏层,1个输出层。

大名鼎鼎的卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)以及transformer架构,都属于神经网络模型。

目前,业界大部分的大模型,都采用了transformer架构。

刚才提到,大模型包含了超大规模参数。实际上,大模型的“大”,不仅是参数规模大,还包括:架构规模大、训练数据大、算力需求大。

以OpenAI公司的GPT-3为例。这个大模型的隐藏层一共有96层,每层的神经元数量达到2048个。

整个架构的规模就很大(我可画不出来),神经元节点数量很多。

大模型的参数数量和神经元节点数有一定的关系。简单来说,神经元节点数越多,参数也就越多。例如,GPT-3的参数数量,大约是1750亿。

大模型的训练数据,也是非常庞大的。

同样以GPT-3为例,采用了45TB的文本数据进行训练。即便是清洗之后,也有570GB。具体来说,包括CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。

最后是算力需求。

GPU算卡

总而言之,大模型就是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海量数据,且非常烧钱。

相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。小模型具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂直领域场景。

█大模型是如何训练出来的?

接下来,我们了解一下大模型的训练过程。

大家都知道,大模型可以通过对海量数据的学习,吸收数据里面的“知识”。然后,再对知识进行运用,例如回答问题、创造内容等。

学习的过程,我们称之为训练。运用的过程,则称之为推理。

训练,又分为预训练(Pre-trained)和微调(Finetuning)两个环节。

预训练

在预训练时,我们首先要选择一个大模型框架,例如transformer。然后,通过“投喂”前面说的海量数据,让大模型学习到通用的特征表示。

那么,为什么大模型能够具有这么强大的学习能力?为什么说它的参数越多,学习能力就越强?

我们可以参考MIT(麻省理工)公开课的一张图:

这张图是深度学习模型中一个神经元的结构图。

神经元的处理过程,其实就是一个函数计算过程。算式中,x是输入,y是输出。预训练,就是通过x和y,求解W。W是算式中的“权重(weights)”。

权重决定了输入特征对模型输出的影响程度。通过反复训练来获得权重,这就是训练的意义。

权重是最主要的参数类别之一。除了权重之外,还有另一个重要的参数类别——偏置(biases)。

参数有很多种类

权重决定了输入信号对神经元的影响程度,而偏置则可以理解为神经元的“容忍度”,即神经元对输入信号的敏感程度。

简单来说,预训练的过程,就是通过对数据的输入和输出,去反复“推算”最合理的权重和偏置(也就是参数)。训练完成后,这些参数会被保存,以便模型的后续使用或部署。

参数越多,模型通常能够学习到更复杂的模式和特征,从而在各种任务上表现出更强的性能。

我们通常会说大模型具有两个特征能力——涌现能力和泛化能力。

当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,会表现出一些未能预测的、更复杂的能力和特性。模型能够从原始训练数据中,自动学习并发现新的、更高层次的特征和模式。这种能力,被称为“涌现能力”。

“涌现能力”,可以理解为大模型的脑子突然“开窍”了,不再仅仅是复述知识,而是能够理解知识,并且能够发散思维。

泛化能力,是指大模型通过“投喂”海量数据,可以学习复杂的模式和特征,可以对未见过的数据做出准确的预测。

简单来说,就像董宇辉一样,书读得多了,有些书虽然没读过,他也能瞎掰几句。

参数规模越来越大,虽然能让大模型变得更强,但是也会带来更庞大的资源消耗,甚至可能增加“过拟合”的风险。

过拟合,是指模型对训练数据学习得过于精确,以至于它开始捕捉并反映训练数据中的噪声和细节,而不是数据的总体趋势或规律。说白了,就是大模型变成了“书呆子”,只会死记硬背,不愿意融会贯通。

预训练所使用的数据,我们也需要再说明一下。

预训练使用的数据,是海量的未标注数据(几十TB)。

预训练模型,可以通过无监督学习方法(如自编码器、生成对抗网络、掩码语言建模、对比学习等,大家可以另行了解),从未标注数据中,学习到数据的通用特征和表示。

这些数据,也不是随便网上下载得来的。整个数据需要经过收集、清洗、脱敏和分类等过程。这样可以去除异常数据和错误数据,还能删除隐私数据,让数据更加标准化,有利于后面的训练过程。

获取数据的方式,也是多样化的。

如果是个人和学术研究,可以通过一些官方论坛、开源数据库或者研究机构获取。如果是企业,既可以自行收集和处理,也可以直接通过外部渠道(市场上有专门的数据提供商)购买。

微调

预训练学习之后,我们就得到了一个通用大模型。这种模型一般不能直接拿来用,因为它在完成特定任务时往往表现不佳。

这时,我们需要对模型进行微调。

微调,是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,让模型更好的完成特定任务。

行业数据类别

微调之后的大模型,可以称之为行业大模型。例如,通过基于金融证券数据集的微调,可以得到一个金融证券大模型。

如果再基于更细分的专业领域进行微调,就是专业大模型(也叫垂直大模型)。

我们可以把通用大模型理解为中小学生,行业大模型是大学本科生,专业大模型是研究生。

微调阶段,由于数据量远小于预训练阶段,所以对算力需求小很多。

大家注意,对于大部分大模型厂商来说,他们一般只做预训练,不做微调。而对于行业客户来说,他们一般只做微调,不做预训练。

“预训练+微调”这种分阶段的大模型训练方式,可以避免重复的投入,节省大量的计算资源,显著提升大模型的训练效率和效果。

预训练和微调都完成之后,需要对这个大模型进行评估。通过采用实际数据或模拟场景对大模型进行评估验证,确认大模型的性能、稳定性和准确性等是否符合设计要求。

等评估和验证也完成,大模型基本上算是打造成功了。接下来,我们可以部署这个大模型,将它用于推理任务。

换句话说,这时候的大模型已经“定型”,参数不再变化,可以真正开始干活了。

大模型的推理过程,就是我们使用它的过程。通过提问、提供提示词(Prompt),可以让大模型回答我们的问题,或者按要求进行内容生成。

最后,画一张完整的流程图:

█大模型究竟有什么作用?

根据训练的数据类型和应用方向,我们通常会将大模型分为语言大模型(以文本数据进行训练)、音频大模型(以音频数据进行训练)、视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。

多模态大模型,结合了NLP和CV的能力,通过整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。

如果按照应用场景进行分类,那么类别就更多了,例如金融大模型、医疗大模型、法律大模型、教育大模型、代码大模型、能源大模型、政务大模型、通信大模型,等等。

例如金融大模型,可以用于风险管理、信用评估、交易监控、市场预测、合同审查、客户服务等。功能和作用很多很多,不再赘述。

█大模型的发展趋势?

截至2024年3月25日,中国10亿参数规模以上的大模型数量已经超过100个,号称“百模大战”。

这些大模型的应用领域、参数规模各有不同,但是,背后都是白花花的银子。

根据行业估测的数据,训练一个大模型,成本可能在几百万美元到上亿美元之间。例如,GPT-3训练一次的成本,约为140万美元。Claude3模型的训练费用,高达约1亿美元。

如此多的企业推出大模型,实际上也是一种资源的浪费。

而且,大模型也分为开源大模型和闭源大模型。行业里有能力做闭源大模型的企业,并不是很多。大部分的大模型,都是基于开源大模型框架和技术打造的,实际上是为了迎合资本市场的需求,或者为了蹭热度。

行业里,目前仍有部分头部企业在死磕参数规模更大的超大模型(拥有数万亿到数千万亿个参数),例如OpenAI、xAI等。马斯克之前就在X平台宣布,xAI团队已经成功启动了世界上最强大的AI训练集群。该集群由10万块H100组成,主要用于Grok2和Grok3的训练和开发。

对于大部分企业来说,万卡和万亿参数其实已经是个天花板了,再往上走的意愿不强烈,钱包也不允许。

大模型落地,就涉及到能力“入”端(下沉到终端)。所以,AI手机、AIPC、具身智能的概念越来越火,成为新的发展热点。

以AI手机为例,像高通、联发科等芯片厂商,都推出了具有更强AI算力的手机芯片。而OPPO、vivo等手机厂商,也在手机里内置了大模型,并推出了很多原生AI应用。

第三方AI应用的数量,就更不用说了。截止目前,根据行业数据显示,具有AI功能的APP数量已达到300多万款。2024年6月,AIGC类APP的月活跃用户规模达6170万,同比增长653%。

大模型入端,也带来了轻量化的趋势。为了在资源受限的设备上运行,大模型将通过剪枝、量化、蒸馏等技术进行轻量化,保持性能的同时减少计算资源需求。

█大模型会带来哪些挑战?

首先,是影响失业率。大模型所掀起的AI人工智能浪潮,肯定会导致一些人类工作岗位被替代,进而导致失业率上升。

第三,大模型可能引发算法偏见和不公平。也就是说,训练数据中存在的偏差,会导致大模型学习到这些偏差,从而在预测和生成内容时表现出不公平的行为。模型可能无意中强化社会上的刻板印象和偏见,例如性别、种族和宗教等方面的偏见。大模型生成的内容也可能被用于政治宣传和操纵,影响选举和公共舆论。

第四,被用于犯罪。大模型可以生成逼真的文本、图像、语音和视频,这些内容可能被用于诈骗、诽谤、虚假信息传播等恶意用途。

第五,能耗问题。大模型的训练和推理需要大量的计算资源,这不仅增加了成本,还带来了巨大的碳排放。很多企业为了服务于资本市场或跟风,盲目进行大模型训练,消耗了大量的资源,也导致了无意义的碳排放。

THE END
1.模型图标素材网站图片免费下载共有109505个模型图标相关内容为您呈现 ui图标原型设计模型游戏 万圣节3d模型图标 1 liushaosad 金币模型堆叠 7 江涛1212 图扑孪生工厂流水线组态图可视化 9 图扑软件Hightopo 像素风游戏图标的LORA模型上新啦 21 ConceptConnoisse SD1.5游戏图标大模型出图测试 ...https://www.zcool.com.cn/tag/ZNDI0MTIyOA==.html
2.40多个常用的3d立体图标模型素材一组常用的3d立体图标模型素材,总共有40多个高级3d图标,包含有:购物车、购物篮、礼物、证书、记事本、房子、日历、无人机、锁、钥匙、台灯、打印机、耳机、相机、...https://www.25xt.com/sucai/79025.html
3.[开发模型图标]图片免费下载开发模型图标素材千图网为您找到78546张开发模型图标相关素材,千图网还提供开发模型图标图片,开发模型图标素材, 开发模型图标模板等免费下载服务,千图网是国内专业创意营销服务交易平台,一站式解决企业营销数字化、协同化,实现营销转化效果增长!https://m.58pic.com/tupian/kaifamoxingtubiao.html
4.巨型模型图标(MegaModicons)图标icon免费下载通用模型 模型库模型库 C4DC4D 游戏游戏 动画|绑定动画|绑定 MayaMaya BlenderBlender 专用模型 SU模型SU模型 产品|机械产品|机械 3d打印3d打印 家装|工装家装|工装 材质贴图 贴图贴图 VRayVRay HDRIHDRI PBRPBR 平面 素材 图标图标 元素元素 背景背景 https://www.aigei.com/view/95903.html
5.手机流行的模型OptimusGPro图标图片免费下载PNG素材图精灵为您提供手机流行的模型Optimus G Pro 图标免费下载,本设计作品为手机流行的模型Optimus G Pro 图标,格式为PNG,尺寸为512x512,下载后直接使用,下载手机流行的模型Optimus G Pro 图标图片素材就到图精灵。https://616pic.com/sucai/vd9id8g07.html
6.结构方程模型和常用图标.ppt结构方程模型和常用图标.ppt 文档分类:汽车/机械/制造|页数:约69页 分享到: 1/69 分享到: 1/69下载此文档 文档信息 页数:69 收藏数:0 顶次数:0 上传人:sanshenglu2 文件大小:2.40 MB 时间:2020-10-14https://www.taodocs.com/p-431167986.html
7.设置牙线龋齿植入物牙钙治疗程序牙刷假牙模型耳鼻...VEER图片库提供设置牙线、龋齿、植入物、牙钙、治疗程序、牙刷、假牙模型、耳鼻喉头反射器图标。向量图片购买下载服务,2亿+高清商业图片,正版图片购买下载一站服务,另提供钙图片,口腔卫生图片,健康保健图片,药图片,背景分离图片,一个物体图片,清新图片,牙医图片,齿轮图片https://www.veer.com/illustration/412065369
8.元模型驱动(一)构建元模型ーGME入门在接下来的时间里,这将是模型的唯一范式作业区,所以双击图标最大化或者点击 FullScreen 图标。 图1.1 GME 元模型的空范例表 1.2.3 定义实体 确保当前的面是”ClassDiagram”模式。该”Part Browser”浏览器的左侧靠下部所显示的对象,可以插入到模型的当前面里面,将浏览器里面的”Model”拖拽到主编辑窗口里面。这...https://xie.infoq.cn/article/66121e326c72f2c9e22773695
9.模型树带箭头黄色图标含义CreoParametric零件建模如题,模型树图标颜色是黄色,上面有一个箭头,旁边还有两个红色的长圆形,不知道是什么意思,不显示...http://www.proewildfire.cn/thread-180179-1-1.html
1.模型图标图片大全模型图标高清图片下载黑色设计简约黑色运动健身图标背景图片 工业图标集合简易画工业4.0图标集。包括创意元素自动化、数据管理、业务智能、横向集成、 osi模型图标。可用于报告、演示、图表、网页设计 白色机器智能一个白色方块机器人智能机器操纵科技背景图片 红色设计抽象红色原子图标背景图片 ...https://www.51miz.com/so-tupian/1801987.html
2.大模型助力图标设计,零基础也能轻松搞定logo生成来源大模型在我的个人网站建设中,有一些灵感是来自AI的支持,例如我的域名和logo的设计,都有AI大模型参与其中。今天给大家介绍下我是如何使用微软的Copilot进行图标设计的,之前应该都叫它New Bing,最近更名为了Copilot。 设计logo 我把自己的网站名字techins.xyz给了大模型,让它给我设计一个网站logo,一开始给的logo都是圆形...https://blog.csdn.net/Prince_WCS/article/details/135852293
3.模型建模图片大全模型建模背景图片我图网为您匹配到模型建模素材专题,提供大量模型建模图片,模型建模图片大全,模型建模素材在线下载。更多模型建模图片素材,尽在我图网。我们提供高质量正版图片供您使用,商用版权放心下载。https://www.ooopic.com/subjectinfo-507564/
4.高达模型三视图图片高达模型三视图图片素材免费下载千库网为设计者提供高达模型三视图素材大全,为您省却高达模型三视图图片素材搜索时间,这里有海量高达模型三视图素材图片供您下载使用,本次搜索千库网为您找到10000张素材https://m.588ku.com/image/109898552.html
5.小模型图标素材小模型图标图片元素觅元素是设计素材的免费下载网站,提供小模型图标素材,小模型图标图片,小模型图标免抠素材设计元素,小模型图标png图片透明背景等素材免费下载。https://www.51yuansu.com/tsearch/xiaomoxingtubiao.html
6.CreateML图像分类(创建图像分类模型)如果评估绩效不够好,您可能需要重新培训更多不同的培训数据。例如,您可以为图像分类器启用图像增强选项。有关如何进行更详细的模型评估以及提高模型性能的策略的信息,请参阅提高模型的准确性。 保存模型 当您的模型运行良好时,请将其保存,以便您可以在应用中使用它。将模型图标从Output选项卡拖动到Finder中的目录,以...https://www.jianshu.com/p/acb70d00e46e
7.卡通图标图标模型其他模型库3dsMax(.max)模型下载CG模型网(cgmodel.com)聚集了全球数百万三维艺术设计师,提供优质三维模型(卡通图标 图标 游戏图标 标志)模型素材下载,属于(其他)模型,下载3ds Max(.max)模型格式(卡通图标 图标 游戏图标 标志)模型,有版权的模型素材库下载,请上CG模型网。https://www.cgmodel.com/model/778359.html
8.魔顿网24个3DIcons常用3DUI卡通图标模型根据您的品牌准则轻松更改颜色、光泽和其他图层。选择最适合您的项目的角度(3/4、正面或平面)或 5 种预制样式中的一种,例如粘土、卡通、渐变、银色和金色。 格式Cinema 4D 场景 (+OBJ)+Figma。渲染器阿诺德 公文包模型,礼品盒礼物盒模型,救生圈模型,摄像头模型,蛋糕模型,钥匙模型,文件夹模型,小猪存钱罐模型,闹...http://www.modown.cn/archives/93093.html
9.在PowerApps中更改模型驱动应用的自定义表图标在自定义表创建时,它将被自动分配默认图标。 所有自定义表默认均使用相同图标。 使用自定义图标区分自定义表的外观。 无法修改分配给系统表的图标。 在这里的示例中,客户表被分配了一个图标,因为它是一个系统表,但是其他表具有默认图标。 图标可在模型驱动应用中用于以下目的。 展开表 图标类型Description 表图标...https://docs.microsoft.com/powerapps/maker/model-driven-apps/change-custom-entity-icons
10.EdrawMax怎么绘制iPad图标模型?图形图像软件教程Edraw Max设计软件有款模型---线框图,里面包括很多移动手机模型,有iPhone、iPad模型等。利用这些模型可以设计出不同的demo图,展示不同的样本。下面利用一个实例说明设计iPad图标模型,操作如下: 亿图图示专家 Edraw Max V7.9 中文官方安装版+特别补丁 类型:图像处理 大小...https://www.jb51.net/softjc/525607.html
11.模型构建图标。时尚模型建筑标志概念的白色背景从活动和爱好集合...摄图新视界提供模型构建图标。时尚模型建筑标志概念的白色背景从活动和爱好集合。适用于 web 应用移动应用和打印媒体图片下载,另有矢量,电脑,经商,艺术,模型,技术,近代,创意,图标,架构,建筑,城市,施工,房子,办公室图片搜索供您浏览下载,每张图片均有版权可放心商用,您正在浏https://xsj.699pic.com/tupian/0tpnn6.html
12.反和谐(包括技能图标和模型)178把ICONS文件放入interface文件下( 不是addons文件下 ),然后复制 SET overrideArchive "0" 放入WTF文件的 Config.lua里 ,完美解决技能图标和模型反和谐。 不经常发帖,希望能给一些用单体整合插件的一些小小福利吧~~ 附上ICONS文件 ICONS文件好像上传不了~想要的+Q吧 997139946 ...https://nga.178.com/read.php?_ff=7&forder_by=postdatedesc&tid=12168645
13.osgearthearth文件规范符号参考模型符号(SDK:ModelSymbol) 描述了外部的 3D 模型。像图标,模型,通常用于: ?指向模型替换-替换的 3D 模型的几何形状 ?模型注释 渲染器 渲染器的符号(SDK: RenderSymbol) 适用于一般的 OpenGL 渲染设置,以及一些osgEarth 特定的设置,并不特定于任何其他符号类型。 https://blog.51cto.com/u_15127632/4300232
14.多领域合作范文10篇(全文)其绘制图元包括直线、多段线、矩形、椭圆、多边形和文本,可以设置图元的线型、锚状、颜色、填充颜色,并具有网格捕捉、生成图标缩略图等功能。图标创建技术具有两种用途:①用于创建用户自定义模型;②解析Modelica标准库(Modelica Standard Library,MSL)中的图标信息生成模型图标。https://www.99xueshu.com/w/ikeyor2uorhs.html