不是大模型用不起,而是小模型更有性价比

到了年末,又到了喜闻乐见的“2024大预测”环节。

2024年大模型的一个趋势,是将变得“越来越小”。

这种趋势其实已经出现一些端倪,在遍地都是千亿级参数量的千模大战下,今年9月,法国AI初创公司发布了Mistral-7B。

身为一个参数量仅为70亿的模型,所有基准性能却都超越了参数量为130亿的Llama2,公司估值达到22亿美元。

今年12月,谷歌一口气推出了三种规格的Gemini:Ultra、Pro和Nano,其中最小的Nano则准备直接在移动设备上运行,有18亿参数量和32.5亿参数量两个版本。

同时,微软也在12月推出了参数量仅为27亿的模型Phi-2。

它不仅在性能上超越了Mistral-7B,甚至跟参数量700亿版本的Llama2之间的差距也不大,在一些说明中,其性能已经接近甚至很快会超越自身体量25倍的模型[1]。

在这些参数量越来越小的模型一次次震惊AI界之前,大语言模型有一个心照不宣的法则——参数量越大,性能就越好。

毕竟大模型的参数量可以简单理解成“模仿人类大脑的神经元连接”,更多的连接意味着更多的知识储备空间和产生更复杂的思维链条的可能性,所以更大的参数量=更强的性能其实并没有错。

人类的大脑大概有860亿个神经元,能形成差不多100万亿个神经元链接。目前大模型界的扛把子GPT-4,参数量达到了1.76万亿。

即便不能简单换算,但显然即便是GPT-4也还有很大的进步空间。

可怎么明明没达到人脑水平,就要开始降低参数量了?

一、大模型太贵了

这还是要从OpenAI和它的ChatGPT说起,据数据监测网站DownforEveryoneorJustMe的记录,从今年11月底至今,ChatGPT已经宕机5次。

11月7日,OpenAI首届开发者大会上,一口气公布了GPT-4Turbo、图像识别、文字转语音、GPTs等重磅功能,跃跃欲试的用户太多,以至于隔天ChatGPT和API就因为服务器超负荷而故障了两个多小时[2]。

11月15日,OpenAI的CEO奥特曼(SamAltman)直接宣布暂停新的GPTPlus注册,直到12月中旬才逐步重新开放。

这实际上反映的是超大参数量带来的第一个问题:服务器负载。

大模型加上大访问量,对算力的需求是个无底洞,据安信证券测算,目前ChatGPT每天所需的算力约50EFLOPs,所需服务器约1万台[3]。

若ChatGPT的用户量继续保持上涨,假设到24年底用户数量为5亿,则需要23万台服务器,但2022年全球AI服务器的出货量仅为13万台。

服务器需求分为两方面,一者是包括买GPU在内的动辄七八位数的训练成本,比如据奥特曼透露,GPT-4的开发成本超过1亿美元。

据研究机构EpochAI统计,训练尖端模型所需的算力每6到10个月就会翻一番[7]。

经济学人杂志在这个趋势上进行了推算,如果“10个月翻一番”的理论站得住脚,那到2026年训练一个顶尖模型的成本要超过10亿美元。

在现阶段虽然还有诸多公司愿意为了这个“遥遥领先”的地位去烧钱搏一把,但随着竞争格局逐渐清晰,往死里堆参数的公司显然会越来越少。

这些还都只是一次性开支,咬咬牙也就忍过去了。

真正难以承担的,其实是当模型推出给大众后,日常使用过程中所产生的庞大推理费用。

对于一个大模型来说,回答用户“今天气温多少度”和“如何造一枚原子弹”,假设都只推理一次的情况下,其成本其实是一样的,而前者的需求反而更加庞大。

等于说,科技公司提供了一辆超跑级别的性能野兽,但大多数用户的需求就是拿它送外卖。

大摩也算过一笔账,如果把谷歌当前一半的搜索量交给ChatGPT去处理,那每年要凭空多花60亿美元。

这种成本上的巨大负担,成为了科技公司们另寻它路的首要原因,就像阿尔特曼在今年4月份他在MIT的一次演讲中说[9]:

“我们已经到了大模型时代的尽头,是时候想点其他的办法来提升模型性能了。”

比如说,小模型。

二、不是大模型用不起,而是小模型更有性价比

前身是斯坦福AI实验室的SnorkelAI做了一个试验,分别用GPT-3微调和自己搭建小模型的方式去训练一个法律领域的垂直模型。

GPT-3的微调和搭建成本是7418美元,1万次推理花费173美元,而自己搭建小模型的成本仅有1915美元,1万次推理也只要花费0.26美元[8]。

而且GPT-3微调出来的垂直模型正确率为71.4%,仅仅比小模型的71.3%好了一点点。看在GPT-3模型参数量是小模型1400倍的份上,表现好也是正常的。

但是抛开表现看一下成本:小模型的建造成本是GPT-3微调的1/4,推理成本是GPT-3微调的1/1000。

在这种级别的成本差异面前,0.1%的差距似乎显得没那么难接受了。

更为关键的是,现在已经有诸多论文详述了“如何在更少参数量的前提下,实现更强的能力。”

比如说谷歌DeepMind的Chinchilla模型,其凭借700亿的参数量,在表现上超过了参数量为1750亿的GPT-3。这里鸡贼的是,Chinchilla的参数量虽然比GPT-3小,但是它的训练语料库却比GPT-3要大5倍。

简单来说,他们的思路是,让每一个参数都变得更有价值。

DeepMind团队发现,自己训练了400个模型之后发现了一个规律,为了达到最佳的训练效果,当模型参数量翻倍时,训练语料库也应该翻倍[10]。

于是他们遵循这个规律,在1.4万亿个token上训练出来了700亿参数的Chinchilla,语料库的token和参数量比达到了20:1。

而相比之下,OpenAI在3000亿个token上训练出来了1750亿参数的GPT-3,语料库的token和参数量比连2:1都没有达到。

还有另一种方式,学术名叫知识蒸馏(Knowledgedistillation),咱们俗称“偷师”或者“改进”。

简单来说,这种方式可以高效地将大型复杂模型里的知识,转移到更小更简单的模型中[11]。

知识蒸馏的概念也是辛顿教授一篇论文中所提到的,说白了就是让大模型去吸收浩瀚宇宙中的无穷知识,把学出来的结果传授给小模型。

就像牛顿总结出的那些物理学定律一样,咱们作为学生只要拿来应用就行了。

具体来说,比如你给教师模型一道题:有一个人拿着一套高尔夫球杆,那他最有可能去下面哪个地方?

A.俱乐部

B.礼堂

C.冥想室

D.会议室

E.教堂

教师模型想要得到答案,他需要知道ABCDE这五个地方一般进行什么活动,什么人会去,去了会带些什么做些什么动作,高尔夫球杆在这些地方有没有可能发挥作用,将这些庞大的数据分析后,最终得出结论,只有在俱乐部有可能使用。

而学生模型则不需要关于这五个地方的详细信息,教师模型已经给这五个地方分别打好了标签总结出了规律,从而迅速得出结论,只有A选项符合要求。

回答:答案应该是需要用到高尔夫球杆的地方。上述的选择里面,只有俱乐部里能用到,所以我的答案是A.俱乐部。

学生模型在看到教师模型的回答后,不仅记住了俱乐部跟高尔夫球杆有关联这个知识点,也知道了遇到相似问题的时候的解题思路。

NLP/AI领域的专家猜测,轰动一时的欧洲之光Mistral7B就是通过知识蒸馏的方式训练出来的。

虽然Mistral的训练方式目前还是保密的,但是创始人ArthurMensch在访谈中提到过,在大模型的基础上通过蒸馏和合成数据来训练出质量更高的小模型,这种方法是可行的。

纵观下来,小模型和大模型实际上并不是一种竞争关系,而是面对算力成本和应用推广两大难题下的一种优化合作。

就如同三体人操控地球的方式是阻止基础物理的发展一样,没有大模型奠基,也就没有站在其肩膀上的小模型。

成本问题解决了,实现方法也有了,推理效率还能够保证,剩下的就是商业化的应用场景了。

三、端侧AI,小模型的天堂

相较于千亿参数大模型不得不部署在云端服务器,占用超级计算机的算力,小模型最大的优势实际上是能部署在端侧。

比如放进随身携带的手机里,不再占用超算算力降低成本不说,其响应速度完全不在一个量级上。

由于手机芯片在空间上的局限性,其算力上限在摩尔定律尚未被打破前基本是可以算得出来的,想要让AI真正走进千家万户,目前来看只能是将模型瘦身装进手机里最为现实。

对于手机端AI的前景,高通的CEO安蒙(CristianoAmon)认为[4]:“我们将看到以应用为中心的用户界面发生改变,生成式AI将成为人与应用之间的接口。”

而各家手机厂商确实也是这么做的。

Vivo的蓝心小V也是定位为融合到手机系统里的全局智能助理,可以听人话、看文字、读文件,能帮用户做计划定日程[5]。

荣耀下一代旗舰机Magic6直接支持动动嘴皮子,让手机自己去相册找视频素材,剪辑成片的功能。

OppoFindX7也宣布让70亿参数的AndesGPT真正地装进手机,并实现内存和存储空间的进一步优化。

谷歌的Pixel8Pro今年12月已经用上了自家的GeminiNano,不过目前只有两个比较简陋的应用:一是在录音APP里对音频进行自动摘要,二是通过谷歌键盘进行智能回复[6]。

2000年前后,用拨号上网下载一个1GB的文件大概要上千元,到了今天1GB的流量在手机上也就几毛钱。这种成本的大幅降低,实际上才是互联网普及的关键。

同理,AI想要普及,问题的关键还是成本。

但恰巧,成本问题是咱们最擅长的环节,看看拼多多、Shein如何做到全球最低价,看看华为是如何让非洲普及5G,看看印度人钟爱小米。

如果说美国最擅长技术上的突破,那么中国最擅长的则是:

让技术带来的普惠走进千家万户。

[1]微软小模型击败大模型:27亿参数,手机就能跑|机器之心

[2]火成这样?OpenAI暂停新的ChatGPTPlus订阅|华尔街见闻

[3]ChatGPT提升算力需求增长中枢,超算服务器出货量有望大幅提升|安信证券

[4]卷生成式AI的旗舰手机,2024年会引发一场交互革命|机器之心

[5]vivo发布蓝心大模型,手机端运行且开源,自研系统亮相|机器之心

[6]Google’sGeminiAImodeliscomingtothePixel8Proforrecordingsummariesandsmartreplies|TheVerge

[7]Thebigger-is-betterapproachtoAIisrunningoutofroad|TheEconomist

[8]BetternotBigger:DistillingLLMsintoSpecializedModels|EnterpriseLLMSummit

[9]SamAltman:SizeofLLMswon’tmatterasmuchmovingforward|TechCrunch

THE END
1.三阶段信用损失模型(下)昨天的上篇给大家介绍了三阶段信用损失模型...看完了多家银行的横向对比,我们还可以利用三阶段模型披露的数据去审视银行资产质量随时间的变化,特别是哪些报表主要内容中不显著披露的资产,比如:银行的债权投资资产。下面我们就以兴业银行的债权资产为案例分析一下三阶段模型怎么解读。先来看兴业银行2020年底的数据如下图3: ...https://xueqiu.com/1821992043/199071308
2.学生动手做分子模型现行人教版高中化学选修3从这个手性碳的研究入手。 手性分子模型 (制作者:舞阳一高二(10)刘晓轲 制作时间:2018.4.13 制作材料:金属棍与橡胶球) 手性分子互为镜像,如左手与与右手的关系一样,在三维空间中不论如何翻转,都不能重合。它们的药理表现不同。 https://www.meipian.cn/17qh04jl
3.数据人必看的时间序列分析浅谈如果时间序列包含有明显的随时间变化的某种趋势,DF检验必须保证能够剔除这种趋势,否则时间趋势的成分会进入ut,导致ut非白噪声序列,进而偏离了最初的假设。因此形成了ADF检验。ADF检验是由下面3个模型完成: 其中t为时间变量,代表序列随时间变化的趋势。 模型的检验原理同DF检验,即t检验;检验顺序为(3)、(2)、(1)...https://www.niaogebiji.com/article-102882-1.html
4.AttentionIsAllYouNeed翻译3:Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017. 3 模型架构 大多数很好的神经序列转换模型都有一个编码器-解码器(encoder-decoder)的结构。这里,编码器将符号表示的输入序( ...https://www.jianshu.com/p/d87f607bab32
1.Phi3:小模型,大未来!(附魔搭社区推理微调实战教程)简介: 近期, Microsoft 推出 Phi-3,这是 Microsoft 开发的一系列开放式 AI 模型。Phi-3 模型是一个功能强大、成本效益高的小语言模型 (SLM),在各种语言、推理、编码和数学基准测试中,在同级别参数模型中性能表现优秀。为开发者构建生成式人工智能应用程序时提供了更多实用的选择。https://developer.aliyun.com/article/1493152
2.23.CTR预估传统模型51CTO博客3.模型不仅可以用于预测新广告的pCTR,还可以为客户提供优化广告的建议。可以根据模型特征及其重要性来给广告主提供创建广告的建议,如:广告标题太短建议增加长度。 二、Degree-2 Polynomial Margin (Poly2) 1.LR模型只考虑特征之间的线性关系,而POLY2 模型考虑了特征之间的非线性关系。 https://blog.51cto.com/u_15080019/3908270
3.3.数据模型—Python3.10.15說明文件3. 数据模型 3.1. 对象、值与类型 3.2. 标准类型层级结构 3.3. 特殊方法名称 3.3.1. 基本定制 3.3.2. 自定义属性访问 3.3.2.1. 自定义模块属性访问 3.3.2.2. 实现描述器 3.3.2.3. 调用描述器 3.3.2.4. __slots__ 3.3.2.4.1. 使用 __slots__ 的注意事项 3.3.3. 自定义类创建 3.3.3.1. 元类 ...https://docs.python.org/zh-tw/3.10/reference/datamodel.html
4.五分钟讲实验大小鼠心梗模型构建全流程详解!企业动态犬与人的心脏解剖结构存在一定的相似性,可以较好的复制临床上心肌梗死的病理生理过程但是犬的价钱较高,实验成本较大,对操作人员的熟练程度有较高要求,因此,建议在药物筛选完成后的药效验证阶段选择犬进行心肌梗死模型的制备。 3. 临床前新药药效研究: 比格犬、小型猪心脏冠脉分支、走行、侧支循环分布较为规律,与人...https://www.biomart.cn/news/16/3208496.htm
5.《指环王3》:大模型(豆瓣)《指环王3》:大模型 Big-atures 《指环王3》:大模型 Big-atures(2004) 导演:迈克尔·佩勒林 编剧:迈克尔·佩勒林 类型:纪录片/短片 制片国家/地区:美国 语言:英语 上映日期:2004-12-14(美国) 片长:20分钟 又名:《指环王3:王者无敌》花絮 IMDb:tt0487874...https://movie.douban.com/subject/35444777/
6.巧用3大归因模型,营造最佳的沟通效果3.如何分析全渠道沟通的效果 本文是“全渠道沟通”系列文章的第三篇,将通过归因模型来分析全渠道沟通的效果,来帮助您和您的团队完善全渠道沟通策略。 2020年,全渠道沟通是当今市场营销的新宠,但并非每个营销人员都知道如何正确且适时地应用它。对于不同类型的公司,其相适应的归因模型也不同,如何根据自身公司选择合适...https://36kr.com/p/831472068616327
7.机械冲击下的动力锂电池,在不同尺度上表现怎么样的特性你了解吗...3)模型必须同时涵盖微观物理学和宏观行为。 聚合物材料的现有模型已经建立地很好[72-75],但其是否适合隔膜仍有待验证。此外,为了利用这些模型,必须开发新的用户材料子程序(UMAT),因为它们通常在商业FE软件中不可用,并且必须为模型的参数设计复杂的校准程序 ...http://www.juda.cn/news/186071.html
8.多重线性回归分析(MultipleLinearRegressionAnalysis)——理论...\(0 \leq R^{2} \leq 1\),说明自变量X1、X2、…、Xm能够解释Y变化的百分比,其值越接近1,说明模型对数据的拟合程度越好。 3. 复相关系数 \(\mathrm{R}=\sqrt{R^{2}}\)称为复相关系数(multiple correlation coefficient),可用来度量因变量Y与多个自变量间的线性相关程度,亦即观察值Y与估计值之间的相关...https://mengte.online/archives/3680
9.AnthropicClaude—AmazonBedrock中的模型—AWSClaude 3 Opus 值得信赖的人工智能系统 Anthropic 成立的目的是打造世界上最安全、最强大的大型语言模型。Claude 是 Anthropic 最前沿、最先进的大型语言模型,为企业提供了高级推理、视觉分析、代码生成和多语言处理等重要功能。聆听 Anthropic 全球客户主管 Neerav Kingsland 的演讲,他讨论...http://aws.amazon.com/cn/bedrock/claude/?sc_icampaign=gl-cn-product-claude3-2403&sc_ichannel=ha&sc_iplace=ribbon&trk=b3ce5d64-1bf4-411e-bd0b-ed46f5ba2d06
10.冰洁冷艳身材劲爆!《质量效应3(MassEffect3)》塔莉最新模型...近日,Gamingheads推出了基于《质量效应3(Mass Effect 3)》的第三款模型,冰洁冷艳的塔莉(Tali'Zorah),请大家一起来欣赏她那绝美的造型。,游侠网https://www.ali213.net/news/html/2014-11/123889.html