写给小白的大模型入门科普

大模型,英文名叫LargeModel,大型模型。早期的时候,也叫FoundationModel,基础模型。

大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训练,是一项技术,我们后面再解释。

我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(LargeLanguageModel,也叫大语言模型,简称LLM)。

除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。而语言大模型,被称为狭义的大模型。

从本质来说,大模型,是包含超大规模参数(通常在十亿个以上)的神经网络模型。

这是一个全连接神经网络(每层神经元与下一层的所有神经元都有连接),包括1个输入层,N个隐藏层,1个输出层。

大名鼎鼎的卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)以及transformer架构,都属于神经网络模型。

目前,业界大部分的大模型,都采用了transformer架构。

刚才提到,大模型包含了超大规模参数。实际上,大模型的“大”,不仅是参数规模大,还包括:架构规模大、训练数据大、算力需求大。

以OpenAI公司的GPT-3为例。这个大模型的隐藏层一共有96层,每层的神经元数量达到2048个。

整个架构的规模就很大(我可画不出来),神经元节点数量很多。

大模型的参数数量和神经元节点数有一定的关系。简单来说,神经元节点数越多,参数也就越多。例如,GPT-3的参数数量,大约是1750亿。

大模型的训练数据,也是非常庞大的。

同样以GPT-3为例,采用了45TB的文本数据进行训练。即便是清洗之后,也有570GB。具体来说,包括CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词),绝对堪称海量。

最后是算力需求。

总而言之,大模型就是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海量数据,且非常烧钱。

相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。小模型具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的垂直领域场景。

接下来,我们了解一下大模型的训练过程。

大家都知道,大模型可以通过对海量数据的学习,吸收数据里面的“知识”。然后,再对知识进行运用,例如回答问题、创造内容等。

学习的过程,我们称之为训练。运用的过程,则称之为推理。

训练,又分为预训练(Pre-trained)和微调(Finetuning)两个环节。

预训练

在预训练时,我们首先要选择一个大模型框架,例如transformer。然后,通过“投喂”前面说的海量数据,让大模型学习到通用的特征表示。

那么,为什么大模型能够具有这么强大的学习能力?为什么说它的参数越多,学习能力就越强?

我们可以参考MIT(麻省理工)公开课的一张图:

这张图是深度学习模型中一个神经元的结构图。

神经元的处理过程,其实就是一个函数计算过程。算式中,x是输入,y是输出。预训练,就是通过x和y,求解W。W是算式中的“权重(weights)”。

权重决定了输入特征对模型输出的影响程度。通过反复训练来获得权重,这就是训练的意义。

权重是最主要的参数类别之一。除了权重之外,还有另一个重要的参数类别——偏置(biases)。

权重决定了输入信号对神经元的影响程度,而偏置则可以理解为神经元的“容忍度”,即神经元对输入信号的敏感程度。

简单来说,预训练的过程,就是通过对数据的输入和输出,去反复“推算”最合理的权重和偏置(也就是参数)。训练完成后,这些参数会被保存,以便模型的后续使用或部署。

参数越多,模型通常能够学习到更复杂的模式和特征,从而在各种任务上表现出更强的性能。

我们通常会说大模型具有两个特征能力——涌现能力和泛化能力。

当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,会表现出一些未能预测的、更复杂的能力和特性。模型能够从原始训练数据中,自动学习并发现新的、更高层次的特征和模式。这种能力,被称为“涌现能力”。

“涌现能力”,可以理解为大模型的脑子突然“开窍”了,不再仅仅是复述知识,而是能够理解知识,并且能够发散思维。

泛化能力,是指大模型通过“投喂”海量数据,可以学习复杂的模式和特征,可以对未见过的数据做出准确的预测。

简单来说,就像董宇辉一样,书读得多了,有些书虽然没读过,他也能瞎掰几句。

参数规模越来越大,虽然能让大模型变得更强,但是也会带来更庞大的资源消耗,甚至可能增加“过拟合”的风险。

过拟合,是指模型对训练数据学习得过于精确,以至于它开始捕捉并反映训练数据中的噪声和细节,而不是数据的总体趋势或规律。说白了,就是大模型变成了“书呆子”,只会死记硬背,不愿意融会贯通。

预训练所使用的数据,我们也需要再说明一下。

预训练使用的数据,是海量的未标注数据(几十TB)。

预训练模型,可以通过无监督学习方法(如自编码器、生成对抗网络、掩码语言建模、对比学习等,大家可以另行了解),从未标注数据中,学习到数据的通用特征和表示。

这些数据,也不是随便网上下载得来的。整个数据需要经过收集、清洗、脱敏和分类等过程。这样可以去除异常数据和错误数据,还能删除隐私数据,让数据更加标准化,有利于后面的训练过程。

获取数据的方式,也是多样化的。

如果是个人和学术研究,可以通过一些官方论坛、开源数据库或者研究机构获取。如果是企业,既可以自行收集和处理,也可以直接通过外部渠道(市场上有专门的数据提供商)购买。

微调

预训练学习之后,我们就得到了一个通用大模型。这种模型一般不能直接拿来用,因为它在完成特定任务时往往表现不佳。

这时,我们需要对模型进行微调。

微调,是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,让模型更好的完成特定任务。

微调之后的大模型,可以称之为行业大模型。例如,通过基于金融证券数据集的微调,可以得到一个金融证券大模型。

如果再基于更细分的专业领域进行微调,就是专业大模型(也叫垂直大模型)。

我们可以把通用大模型理解为中小学生,行业大模型是大学本科生,专业大模型是研究生。

微调阶段,由于数据量远小于预训练阶段,所以对算力需求小很多。

大家注意,对于大部分大模型厂商来说,他们一般只做预训练,不做微调。而对于行业客户来说,他们一般只做微调,不做预训练。

“预训练+微调”这种分阶段的大模型训练方式,可以避免重复的投入,节省大量的计算资源,显著提升大模型的训练效率和效果。

预训练和微调都完成之后,需要对这个大模型进行评估。通过采用实际数据或模拟场景对大模型进行评估验证,确认大模型的性能、稳定性和准确性等是否符合设计要求。

等评估和验证也完成,大模型基本上算是打造成功了。接下来,我们可以部署这个大模型,将它用于推理任务。

换句话说,这时候的大模型已经“定型”,参数不再变化,可以真正开始干活了。

大模型的推理过程,就是我们使用它的过程。通过提问、提供提示词(Prompt),可以让大模型回答我们的问题,或者按要求进行内容生成。

最后,画一张完整的流程图:

根据训练的数据类型和应用方向,我们通常会将大模型分为语言大模型(以文本数据进行训练)、音频大模型(以音频数据进行训练)、视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。

音频大模型,可以识别和生产语音内容,常用于语音助手、语音客服、智能家居语音控制等场景。

视觉大模型,擅长计算机视觉(CV)领域,可以识别、生成甚至修复图像,常用于安防监控、自动驾驶、医学以及天文图像分析等场景。

多模态大模型,结合了NLP和CV的能力,通过整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。

如果按照应用场景进行分类,那么类别就更多了,例如金融大模型、医疗大模型、法律大模型、教育大模型、代码大模型、能源大模型、政务大模型、通信大模型,等等。

例如金融大模型,可以用于风险管理、信用评估、交易监控、市场预测、合同审查、客户服务等。功能和作用很多很多,不再赘述。

截至2024年3月25日,中国10亿参数规模以上的大模型数量已经超过100个,号称“百模大战”。

这些大模型的应用领域、参数规模各有不同,但是,背后都是白花花的银子。

根据行业估测的数据,训练一个大模型,成本可能在几百万美元到上亿美元之间。例如,GPT-3训练一次的成本,约为140万美元。Claude3模型的训练费用,高达约1亿美元。

如此多的企业推出大模型,实际上也是一种资源的浪费。

而且,大模型也分为开源大模型和闭源大模型。行业里有能力做闭源大模型的企业,并不是很多。大部分的大模型,都是基于开源大模型框架和技术打造的,实际上是为了迎合资本市场的需求,或者为了蹭热度。

行业里,目前仍有部分头部企业在死磕参数规模更大的超大模型(拥有数万亿到数千万亿个参数),例如OpenAI、xAI等。马斯克之前就在X平台宣布,xAI团队已经成功启动了世界上最强大的AI训练集群。该集群由10万块H100组成,主要用于Grok2和Grok3的训练和开发。

对于大部分企业来说,万卡和万亿参数其实已经是个天花板了,再往上走的意愿不强烈,钱包也不允许。

大模型落地,就涉及到能力“入”端(下沉到终端)。所以,AI手机、AIPC、具身智能的概念越来越火,成为新的发展热点。

以AI手机为例,像高通、联发科等芯片厂商,都推出了具有更强AI算力的手机芯片。而OPPO、vivo等手机厂商,也在手机里内置了大模型,并推出了很多原生AI应用。

第三方AI应用的数量,就更不用说了。截止目前,根据行业数据显示,具有AI功能的App数量已达到300多万款。2024年6月,AIGC类App的月活跃用户规模达6170万,同比增长653%。

大模型入端,也带来了轻量化的趋势。为了在资源受限的设备上运行,大模型将通过剪枝、量化、蒸馏等技术进行轻量化,保持性能的同时减少计算资源需求。

首先,是影响失业率。大模型所掀起的AI人工智能浪潮,肯定会导致一些人类工作岗位被替代,进而导致失业率上升。

第三,大模型可能引发算法偏见和不公平。也就是说,训练数据中存在的偏差,会导致大模型学习到这些偏差,从而在预测和生成内容时表现出不公平的行为。模型可能无意中强化社会上的刻板印象和偏见,例如性别、种族和宗教等方面的偏见。大模型生成的内容也可能被用于政治宣传和操纵,影响选举和公共舆论。

第四,被用于犯罪。大模型可以生成逼真的文本、图像、语音和视频,这些内容可能被用于诈骗、诽谤、虚假信息传播等恶意用途。

第五,能耗问题。大模型的训练和推理需要大量的计算资源,这不仅增加了成本,还带来了巨大的碳排放。很多企业为了服务于资本市场或跟风,盲目进行大模型训练,消耗了大量的资源,也导致了无意义的碳排放。

首个可保留情感的音频LLM:Meta重磅开源7B-SpiritLM,一网打尽“音频+文本”多模态任务

2024.11.22

图灵奖得主YoshuaBengio:人类仍缺乏可靠的方法来管理和约束AI

THE END
1.特斯拉学徒2Teslagrad2中文版下载,游戏攻略,汉化,修改器,补丁...特斯拉学徒2 Teslagrad 2 中文版下载,游戏攻略,汉化,修改器,补丁,MOD,DLC,5151游戏王http://www.5151youxi.com/post/3871.html
2.特斯拉学徒游戏专区特斯拉学徒中文版下载及攻略修改器攻略秘籍 更多 《特斯拉学徒》白金视频攻略 攻略 more ·《特斯拉学徒》白金视频攻略 资料 more 没有任何记录 问题解答 more 没有任何记录 游戏视频 更多 《特斯拉学徒》正式登陆国产战斧主机 新预告放出 [登录][注册] 进入特斯拉学徒论坛 发表评论 作者 标题 回复/点击 时间 [登录][注册] 进入特斯拉...https://www.gamersky.com/z/teslagrad/
3.99款类银河战士恶魔城+类塞尔达+大地图探险游戏汇总Vol.2很多盒友反应链接找得好辛苦,我这里就简单做个汇总,也算是目前为止的一个小总结,把这个榜单的游戏全都整合在一起,附带已有的攻略地图。 我自己一共制作了15张地图(都是冷门游戏),如果对你有帮助的话请狠狠地电我吧。 请点击查看原图后再下载,然后用手机相册查看,这样才能显示高清地图。https://api.xiaoheihe.cn/v3/bbs/app/api/web/share?link_id=105160560
4.特斯拉学徒下载2.2最新版特斯拉学徒相关信息 游戏大小 274MB 游戏版本 2.2 APK包名 com.Rain.Teslagrad 系统版本要求 无要求 隐私政策 查看 权限说明 查看 是否联网: 否 发布时间 2019-01-01 更新时间 2021-03-03 应用来源 园园熊工作室 厂商来源 分类 游戏 解谜 特斯拉学徒攻略 更多 徒简易版热血无赖 徒简易版热血无赖如下:以上就...https://3g.7723.cn/apps/50149
1.书生关卡(L1G4000)闯关任务任务要求:参考readme_api.md,基于 LlamaIndex 构建自己的 RAG 知识库,寻找一个问题 A 在使用 LlamaIndex 之前 浦语 API 不会回答,借助 LlamaIndex 后 浦语 API 具备回答 A 的能力。 1、创建开发机,选择Cuda12.2-conda及30%算力。 2、创建要用的环境,python版本可以和指南一样用3.10. ...https://blog.csdn.net/csmwinner/article/details/143947391
2.DMDPC集群部署达梦技术文档一个最小的 DMDPC 集群包含一个 BP、一个 SP 和一个 MP。可以在部署完毕后随时增添新的 BP、SP 节点。至少需要两台 BP 才方便看出子任务的各种计划形态和调度。 Windows 和 Linux 环境下部署 DMDPC 集群并无区别,目前支持借助命令行工具部署和 DEM 图形化界面方式部署两种方式。 https://eco.dameng.com/document/dm/zh-cn/pm/dpc-cluster-deploy.html
3.(可选)安装AtlasIESAtlas500A2智能小站用户指南06安装软件前,请根据下表获取软件包及其数字签名文件。 如果用户需要Atlas IES侦听开启了DHCP功能的网卡,需要将DHCP功能设置在eth0(网口0)上或者eth0不插网线,eth1(网口1~4)打开DHCP功能。 表8-4 获取软件包 软件包 说明 获取地址 A500-A2-firmware_{version}.zip Atlas 500 A2 智能小站安装包,用于Atlas IES...https://support.huawei.com/enterprise/zh/doc/EDOC1100304816/c82d692e
4.AWSGPU服务器价格表:解锁高效计算的利器计算此外,通过优化代码和算法可以进一步降低GPU的资源消耗。 结论 AWS GPU服务器价格表提供了一个直观的价格参考,可以帮助用户更好地了解AWS GPU服务器的定价情况。无论您是大型企业还是中小型企业,都可以根据自己的需求和预算选择合适的AWS GPU服务器,实现高效计算。https://www.cfya.cn/a_compute/461038.html
5....特斯拉学徒下载特斯拉学徒中文版下载特斯拉学徒攻略游戏库 攻略 论坛 商城 网游 手游 页游 大侠号 更多 游侠网APP | 特斯拉学徒 Teslagrad 制作公司:Rain Games 语言版本:中文,其他,日文 游戏平台:PCPS3PS4PSVWii U 发行公司:Rain Games 官方主页:点击查看 游戏类型:冒险游戏AVG 版本信息:1XDVD 发售日期:2013-12-13 ...https://www.ali213.net/zt/teslagrad/
6.特斯拉学徒2Teslagrad2(豆瓣)特斯拉学徒 2 Teslagrad 2 补充完善游戏资料 类型: 游戏/横版过关/角色扮演/冒险 平台: PC/PS4/Xbox One/Nintendo Switch/PS5/XSX 预计上市时间: 2023-09-30 发行日期: 2023-04-20 豆瓣评分 评价人数不足 想玩在玩玩过 评价: 写文字写攻略 推荐https://www.douban.com/game/35363767/
7.Steam上的Teslagrad游戏,风格优秀,谜题非常出色,剧情是一则寓言故事挺不错的,游戏整体结构非常像《墨西哥英雄大混战》,更加推荐大家玩那个,曾经的超级神作(虽然我也是卡在了最终boss战没通关)。《teslagrad是款好游戏,推荐一波,尽可能别看攻略,自己摸索谜题的过程才是最享受的。以下是以前:---初步体验一下这款游戏,目前游戏时...https://store.steampowered.com/app/249590/Teslagrad/
8.Teslagrad手游Teslagrad手游官网专区首页 游戏新闻 资讯攻略 礼包福利 游戏下载 回到首页>> Teslagrad兑换码 5个礼包兑换码大 Teslagrad兑换码 5个礼包兑换码大全 新手教程 更多 Teslagrad兑换码 5个礼包兑换码大全 精品礼包 更多 《Teslagrad》神秘礼包兑换码 领取 《Teslagrad》钻石礼包兑换码 领取 游戏截图 < > ...https://wkyx520.com/index/special/index/id/11082.html