2008年,北京奥运会举世瞩目,五福娃吉祥物风靡一时。
谁料次年初,另一个动物形象就横空出世,热度大有赶超之势。这种诨名为「草泥马」的生物先是惊现贴吧,随即在聊天室、论坛等处广为流传。作为「草泥马」形象的取源,本分布于南美洲的羊驼,开始为地处东亚的国内民众所知。其形似绵羊的皮毛下,有着驴马混搭的身形和滑稽的面部;加上心情不好便喷口水的习惯,深得网友喜爱。很快,这个物种顶着新名字席卷中文互联网,在各处充当别有新意的「吉祥物」,风头一时无两。
虽有俗名「草泥马」,但羊驼并非一种马。如种名「羊驼」所示,其大意为长相似羊的一种驼。
驼,即是骆驼,与羊驼在面部确有几分相似,只是背部多了耸起的峰。可想而知,相比于羊,羊驼与骆驼在分类上是更相近的种族。事实上,它们同归骆驼科下,分属骆驼族与美洲驼族。
如果从骆驼亚科(为骆驼科现存唯一亚科)看起,其科内族属关系如下:
不难察觉,整个美洲驼族中两属四种的名字与称呼,主要突出一个「乱」字。由于中文译名的原因,美洲驼、羊驼、骆马等称呼在不同的语境中可能指代整个族、某一属、个别种,在种间也多有混用。(本文以前述族属关系中的粗体命名为准。)
先看大羊驼和羊驼。它们都是驯化物种,而且是新大陆被发现之前南美洲仅有的驯化牲畜。大羊驼是美洲驼族当之无愧的大哥,身高与成年男子相仿,体重约为人两倍,耳朵多呈稍有弧度的香蕉状,擅长驮负重物,也是驯养主要功能。羊驼,即我们熟悉的「草泥马」,身形稍小,头高如同小学生,体重则接近成人,有尖尖的直耳,皮毛具有不错的经济价值。
从名字上看,羊驼与大羊驼只有码数差距,但两者分属羊驼属和小羊驼属,最多算是表亲。生物学家最初也没搞清楚这一点:在2001年根据基因研究结果改正之前,羊驼都还属于羊驼属,后来发现羊驼与野生的小羊驼在血缘上更为接近,遂移至小羊驼属。这也不能怪一开始分类不准确,毕竟西班牙人刚殖民南美时,也根本没分清大羊驼和羊驼,都是混在一起养,于是大羊驼给了羊驼36%的DNA,羊驼再回赠5%,这才导致了羊驼被分到了表亲大羊驼所在的羊驼属。
再看野生的原驼和小羊驼。它们则分别比其同属的驯养种小一号,身形也更为苗条:原驼高1米出头,重百公斤;小羊驼高约80公分,重50公斤上下。均为直耳,皮毛不如驯养的羊驼丰满,多有更出色的运动能力。
至此,「大中小原」四种美洲驼已基本理清。
转眼进入AI时代,ChatGPT吹起了一股大语言模型之风,恐怕羊驼们绝不曾想到,自己的种族竟也被卷入其中。
Ifanacronymorbasisforthenameisdesired,WSPSRstandingforWeb-scaleSupervisedPretrainingforSpeechRecognitioncanbeused.
——既然你诚心诚意地发问了,那我就大慈大悲地告诉你用WSPSR凑合一下。
就这样,硅基大羊驼诞生了——LLaMA。
然而,这只大羊驼并没有名字所暗示的那么拉风。基于1.4万亿语料(token)预训练的LLaMA65B具有650亿参数量,同系列还有33B、13B、7B不同参数量的版本(后两者训练语料略少些)。作为对比,ChatGPT的底座模型GPT-3175B(代号davinci)参数量为1750亿。故仅从参量而言,大羊驼仍显著逊色于「达芬奇」。
接下来的短短数十天内,在大羊驼LLaMA的托举下,羊驼们已然蓬勃成军,正朝看似高不可攀的ChatGPT,全方位、一步步地追赶进攻——
3月23日,「中文小羊驼」Chinese-Vicuna携模型及数据面世,基于LLaMA模型和LoRA方案,可按需投喂数据进行个性化指令精调。
我们将项目命名为骆驼Luotuo(Camel)主要是因为,Meta之前的项目LLaMA(驼马)和斯坦福之前的项目alpaca(羊驼)都属于偶蹄目-骆驼科(Artiodactyla-Camelidae)。而且骆驼科只有三个属,再不起这名字就来不及了。
3月28日,中文LLaMA&Alpaca大模型发布,在LLaMA基础上扩充了中文词表并加入中文数据预训练,以及与Alpaca相似但增加了中文指令数据的精调,显著提高模型中文能力;
日新月异,不堪尽数……
……全链条覆盖,俨然已自成生态。只等某天时机成熟,便围攻OpenAI于光明顶。
时至今日,美洲驼一族已不局限于南美,其凭借惹人喜欢的外表和聪明友善的性格,正被全世界人民了解。另一边,大语言模型发展仍纷繁暇目,羊驼伙伴名字都几乎用尽,转而以一种精神符号存活于开源社区的各处,激励大家继续求索。希望在不久的将来,AI人人可用。