构建生产环境中的大型语言模型（LLMs）——大型语言模型（LLMs）简介什么是大型语言模型（LLMs）现在，你可能已经|生产/开发模型_宠物食品

LLMs的核心训练目标是预测句子中的下一个单词。这个简单的目标引发了许多新兴的能力。例如，它们可以进行算术计算、解开单词的混乱，甚至在一些专业考试中表现出色，如通过美国医学执照考试。此外，这些模型在各种NLP任务中也做出了重要贡献，包括机器翻译、自然语言生成、词性标注、句法分析、信息检索等，即使在这些特定领域没有直接的训练或微调。

大语言模型中的文本生成过程是自回归的，这意味着它们根据已生成的标记序列生成下一个标记。注意力机制在这个过程中是一个关键组件；它建立了单词之间的联系，确保生成的文本是连贯的并且符合上下文。在深入探索大语言模型的架构及其构建块（如注意力机制）之前，了解一些基本术语和概念是至关重要的。让我们首先概述一下驱动这些模型的架构，然后定义一些术语，如语言建模和标记化。

随着LLMs的兴起，语言建模已成为自然语言处理的重要组成部分。它是基于大量语料库学习语言中单词的概率分布。这一学习过程通常涉及使用经典统计方法或新颖的深度学习技术来预测序列中的下一个标记。

大语言模型的训练目标是预测下一个单词、标点符号或其他元素，这些都是基于文本中已经出现的标记。通过理解训练数据中单词的分布，这些模型变得非常熟练，能够根据上下文猜测下一个单词的概率。例如，模型可以将以“我住在纽约”开头的句子补全为“纽约”，而不是“鞋子”这样的无关词。

在实际应用中，模型处理的是标记，而不是完整的单词。这种方法可以通过更有效地捕捉人类语言的复杂性，从而实现更准确的预测和文本生成。

标记化是与LLMs交互的初始阶段。它涉及将输入文本拆分成称为标记的小片段。标记可以是单个字符到整个单词，这些标记的大小可以极大地影响模型的性能。一些模型采用子词标记化，将单词拆分为保留有意义语言元素的更小段落。

考虑以下句子：“孩子的涂色书。”

如果标记化在每个空白字符后拆分文本，结果将是：["The","child's","coloring","book."]

在这种方法中，你会注意到标点符号仍然附着在单词上，如“child's”和“book”。

另一种方法是根据空白字符和标点符号分隔文本；输出将是：["The","child","'","s","coloring","book","."]

子词标记化通过将单词拆分为有意义的段落（如将“coloring”拆分为“color”和“ing”）进一步提升了模型的语言理解能力。这扩展了模型的词汇量，并提高了其把握语言结构和形态学细微差别的能力。了解“ing”部分表示现在时态可以简化我们如何表示不同时态的单词。我们不再需要为单词的基本形式（如“play”）和它的现在时形式（“playing”）保持单独的条目。通过将“play”与“ing”结合，我们可以表示“playing”而不需要两个单独的条目。这种方法增加了表示一段文本所需的标记数量，但大大减少了我们在词典中需要的标记数量。

标记化过程涉及扫描整个文本以识别唯一的标记，然后对其进行索引以创建词典。这个词典为每个标记分配一个唯一的标记ID，使文本的标准化数值表示成为可能。在与模型交互时，这种将文本转换为标记ID的过程使模型能够高效地处理和理解输入，因为它可以快速参考词典以解码每个标记的含义。我们将在本书后面的章节中看到这个过程的示例。

一旦我们有了标记，我们就可以处理Transformer的内部工作：嵌入（Embeddings）。

标记化后的下一步是将这些标记转换为计算机可以理解和处理的形式——这就是嵌入的作用。嵌入是一种将标记（单词或单词片段）转换为计算机能够理解的数字语言的方式。它们帮助模型理解关系和上下文。它们使模型能够看到单词之间的联系，并利用这些联系更好地理解文本，主要通过注意力机制。

嵌入为每个标记分配一个独特的数字ID，以捕捉其含义。这种数字形式帮助计算机看到两个标记之间的相似性，例如知道“happy”和“joyful”在意义上接近，即使它们是不同的单词。

这一步很重要，因为它帮助模型以数字方式理解语言，弥合了人类语言和机器处理之间的差距。

最初，每个标记会被分配一组随机的数字作为其嵌入。随着模型的训练（即读取和学习大量文本），这些数字会被调整。目标是调整这些数字，以使具有相似含义的标记最终具有类似的数字集。这种调整是由模型在学习标记出现的不同上下文时自动完成的。

尽管数字集（或向量）的概念可能听起来复杂，但它们只是模型高效存储和处理标记信息的一种方式。我们使用向量是因为它们是一种简单的方式，使模型能够跟踪标记之间的关系。它们基本上只是大量的数字列表。

在第二章中，我们将进一步探讨这些嵌入是如何创建和在Transformer架构中使用的。

LLMs在大量文本语料库上训练，目标是正确预测序列中的下一个标记。如前所述，语言建模的目标是调整模型的参数，以最大化基于观察数据的正确预测概率。通常，模型会在来自互联网的大型通用数据集（如ThePile或CommonCrawl）上进行训练。有时，还会使用更具体的数据集，如StackOverflowPosts数据集，作为获取领域特定知识的例子。这个阶段也称为预训练阶段，表示模型被训练以学习语言理解，并为进一步的调优做好准备。

训练过程调整模型的权重，以增加预测序列中下一个标记的可能性。这种调整基于训练数据，引导模型朝着准确的标记预测方向发展。

在预训练之后，模型通常会进行针对特定任务的微调。这一阶段需要在更小的数据集上进一步训练，以完成某项任务（例如文本翻译）或专门领域（如生物医学、金融等）。微调允许模型调整其对特定任务或领域的先前知识，从而提高其性能。

微调过程可能很复杂，尤其是对于像GPT-4这样的高级模型。这些模型采用先进的技术，并利用大量数据来实现其性能水平。

模型在训练或微调阶段后可以通过预测序列中的后续标记来生成文本。这是通过将序列输入模型，生成潜在下一个标记的概率分布，实质上为词汇表中的每个单词分配一个分数。根据分数选择下一个标记。生成过程将循环进行，以逐一预测单词，从而生成任意长度的序列。然而，保持模型的有效上下文大小是至关重要的。

上下文大小（或上下文窗口）是LLMs的一个关键方面。它指的是模型在单次请求中能够处理的最大标记数。上下文大小影响模型能够处理的文本长度，直接影响模型的性能和产生的结果。

不同的LLMs具有不同的上下文大小。例如，OpenAI的“gpt-3.5-turbo-16k”模型具有处理16,000个标记的上下文窗口。模型生成标记的数量有固有的限制。较小的模型可能有最多1,000个标记的容量，而像GPT-4这样的大型模型在本书编写时可以处理最多32,000个标记。

以下因素决定了语言模型的性能：

在他们的研究中，作者在一个包含70亿个参数的Chinchilla模型上训练了1.4万亿个标记的数据集。这种方法符合论文中提出的规模定律：对于一个X参数的模型，最佳训练涉及大约X*20个标记。例如，一个具有1000亿个参数的模型理想情况下应在约2万亿个标记上进行训练。

这种方法使得Chinchilla模型尽管比其他LLMs规模较小，但却超越了它们所有的模型。它在语言建模和特定任务性能上有所提升，使用了更少的内存和计算能力。可以在towardsai.net/book找到“TrainingCompute-OptimalLargeLanguageModels”这篇论文。

LLMs中的新兴能力描述了随着模型规模的增长，新的技能意外地出现。这些能力，包括算术、回答问题、总结材料等，并没有在训练过程中显式地教给模型。相反，它们在模型规模增加时自发出现，因此称为“新兴”。

LLMs是概率模型，学习自然语言模式。当这些模型扩大时，它们的模式识别能力在数量上得到改善，同时在质量上也发生变化。

传统上，模型需要任务特定的微调和架构调整才能执行特定任务。然而，扩展后的模型可以在没有架构变化或专门微调的情况下执行这些任务。它们通过自然语言处理解释任务，具有执行各种功能的能力。LLMs能够在没有明确微调的情况下完成多种功能，这是一个重要的里程碑。

更令人惊讶的是，这些能力的展现方式。LLMs随着其规模的增长，从几乎零到有时接近最先进的性能，迅速且不可预测地发展。这种现象表明这些能力来自模型的规模，而不是被清晰地编程到模型中。

模型规模的增长以及训练数据集的扩展，伴随着计算成本的显著增加，为今天的大型语言模型的出现铺平了道路。例如，CohereCommand、GPT-4和LLaMA等模型，每个都代表了语言建模演变中的重要里程碑。

我们提供给LLMs的文本（或图像、数字、表格等）通常称为提示（prompts）。提示是给AI系统（如OpenAI的GPT-3和GPT-4）提供的指令，提供生成类似人类文本的上下文——提示越详细，模型的输出通常越好。

使用精确的语言：提示中的精确性可以显著提高输出的准确性。

提供足够的上下文：上下文帮助模型理解预期的输出：

测试不同的变体：尝试不同的提示风格，找到最有效的方法：

在人工智能系统中，“幻觉”指的是这些系统生成与事实或现有输入不一致的输出，例如文本或视觉内容。举个例子，如果ChatGPT对某个问题给出一个引人注目但事实错误的回答，这就是一种幻觉。这些幻觉表明了AI输出与现实世界知识或上下文之间的不匹配。

在LLMs中，幻觉发生在模型生成的输出与现实世界事实或上下文不符时。这可能导致虚假信息的传播，特别是在医疗保健和教育等信息准确性至关重要的关键行业中。LLMs中的偏见也可能导致结果倾向于特定的观点，可能会强化有害的刻板印象和歧视。

例如，如果用户问：“2025年谁赢得了世界大赛？”而LLM回答了一个具体的获胜者。到目前为止（2024年1月），该事件尚未发生，因此任何回答都是推测性的且不正确。

此外，AI和LLMs中的偏见是另一个关键问题。它指的是这些模型倾向于基于其训练数据偏向特定的输出或决策。如果训练数据主要来自某个特定地区，模型可能会偏向该地区的语言、文化或观点。在训练数据中包含的偏见（如性别或种族）可能导致AI系统的输出也存在偏见或歧视。

例如，如果用户问LLM：“谁是护士？”而它回答：“她是照顾医院病人的医疗专业人员。”这展示了性别偏见。这个范式本质上将护理与女性联系在一起，这需要适当地反映现实，即男性和女性都可以是护士。

减少AI系统中的幻觉和偏见涉及改进模型训练、使用验证技术以及确保训练数据的多样性和代表性。找到在最大化模型潜力和避免这些问题之间的平衡仍然具有挑战性。

令人惊讶的是，这些“幻觉”在创意领域如小说创作中可能是有利的，允许创造新的和新颖的内容。最终目标是创建强大、有效但也值得信赖、公平和可靠的LLMs。我们可以最大化LLMs的承诺，同时最小化其风险，确保这项技术的优势可供所有人使用。

现在，我们可以结合所学内容，通过OpenAI的API演示如何与其专有LLM进行交互，指示模型执行翻译。要使用OpenAI提供的LLMs生成文本，首先需要为Python环境生成一个API密钥。以下是生成此密钥的逐步指南：

在API密钥页面上，找到“创建新的秘密密钥”（Createnewsecretkey）按钮。点击它以生成一个新的秘密密钥。请记住安全保存此密钥，因为稍后会使用到。

生成API密钥后，可以使用以下格式将其安全地存储在.env文件中：

fromdotenvimportload_dotenvload_dotenv()importosimportopenai#要翻译的英文文本english_text="Hello,howareyou"response=openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role":"system","content":"Youareahelpfulassistant."},{"role":"user","content":f'''TranslatethefollowingEnglishtexttoFrench:"{english_text}"'''}],)print(response['choices'][0]['message']['content'])输出示例：

Bonjour,commentava您可以安全地将敏感信息（如API密钥）存储在单独的文件中，并使用dotenv避免在代码中意外暴露。这在处理开源项目或与他人共享代码时尤其重要，因为它确保了敏感信息的安全。

以下是一个少样本学习的示例，我们通过不同的消息类型向模型提供描述电影的表情符号的示例。（我们将在书中稍后讨论不同的消息类型。）例如，可以用表情符号表示电影《泰坦尼克号》（Titanic），如邮轮、波浪、心形等，或者表示《黑客帝国》（TheMatrix）电影。模型识别到这些模式后，能够使用玩具的表情符号准确地描述电影《玩具总动员》（ToyStory）。

fromdotenvimportload_dotenvload_dotenv()importosimportopenai#用于总结的提示prompt="""用表情符号描述以下电影。{movie}:"""examples=[{"input":"Titanic","output":""},{"input":"TheMatrix","output":""}]movie="ToyStory"response=openai.ChatCompletion.create(model="gpt-3.5-turbo",messages=[{"role":"system","content":"Youareahelpfulassistant."},{"role":"user","content":prompt.format(movie=examples[0]["input"])},{"role":"assistant","content":examples[0]["output"]},{"role":"user","content":prompt.format(movie=examples[1]["input"])},{"role":"assistant","content":examples[1]["output"]},{"role":"user","content":prompt.format(movie=movie)},])print(response['choices'][0]['message']['content'])输出示例：

令人着迷的是，模型仅凭两个示例，就能识别复杂的模式，例如将电影标题与一系列表情符号关联起来。这种能力只有在模型对电影故事和表情符号的含义有深刻理解时才能实现，从而使模型能够将两者结合起来，根据自身的理解回应查询。

正如我们所讨论的，当较大的模型展现出某种能力，而较小的模型则没有，这种能力被认为是突现的，这是大规模语言模型成功的关键因素。LLMs中的突现能力是指当语言模型的规模超过特定阈值时发生的经验现象。随着模型规模的增加，突现能力变得更加明显，受到训练所用计算能力和模型参数等方面的影响。

这一现象表明，模型在学习和概括时超出了其预训练的范围，以未被明确编程或预期的方式进行。这些能力在规模曲线上表现出明显的模式。最初，模型的表现几乎是随机的，但一旦达到某个规模阈值，其性能显著提升。这种现象被称为相变，代表了从较小规模系统中无法明显看出的剧烈行为变化。

扩展语言模型的规模主要集中在增加计算量、扩展模型参数和扩大训练数据集规模。有时，新的能力可以在减少训练计算量或减少模型参数的情况下出现，特别是当模型在更高质量的数据上进行训练时。此外，突现能力的出现受到数据量和质量以及模型参数数量等因素的影响。LLMs中的突现能力随着模型规模的扩大而显现，单纯通过延伸小规模模型中观察到的趋势无法预测。

用于评估语言模型突现能力的几个基准包括BIG-Bench、TruthfulQA、大规模多任务语言理解（MMLU）基准和上下文中的词（WiC）基准。主要基准包括：

例如，WinoGender基准评估职业上下文中的性别偏见，显示虽然扩大规模可以提升模型性能，但也可能在模糊情况下放大偏见。较大的模型倾向于更多地记忆训练数据，但去重等方法可以减少这一风险。

其他风险包括未来语言模型可能存在的潜在漏洞或有害内容合成，这些在当前模型中可能更为普遍或未被充分表征。

这种转变在扩展的少样本提示通用模型超越任务特定模型的实例中显而易见。例如，GPT-3在TriviaQA和PiQA中的表现设立了新基准，PaLM在算术推理中表现出色，多模态Flamingo模型在视觉问答中取得了顶级表现。此外，通用模型能够用最少的示例执行任务，扩展了其应用范围，包括将自然语言指令转换为机器人执行、用户交互和多模态推理等领域。

语言模型中的上下文窗口表示模型可以同时处理的输入令牌数量。在如GPT-4这样的模型中，目前的上下文窗口大约为32K令牌，相当于大约50页的文本。然而，最近的进展将这一数字扩展到了令人印象深刻的100K令牌或约156页，这在Anthropic的Claude模型中得到了体现。

为了更好地理解这一点，让我们审视Transformer架构的计算复杂度。Transformer模型中注意力层的复杂度是，其中是上下文长度（输入令牌的数量），是嵌入大小。

这种复杂度源于注意力层中的两个主要操作：线性投影以创建查询（Query）、键（Key）和值（Value）矩阵（复杂度~）和这些矩阵的乘法（复杂度~）。随着上下文长度或嵌入大小的增加，计算复杂度也呈二次增长，这对处理更大的上下文长度构成挑战。

尽管原始Transformer架构存在计算挑战，但研究人员已开发出一系列优化技术，以提高Transformer的效率并将其上下文长度容量扩展到100K令牌：

FlashAttention-2作为原始FlashAttention的进步，专注于优化Transformer模型中注意力层的速度和内存效率。这一升级版从头开始重新开发，利用了Nvidia的新原语。与其前身相比，其性能约提高了2倍，在A100GPUs上实现了高达230TFLOPs的计算能力。

FlashAttention-2在多个方面改进了原始FlashAttention：

通过这些增强，FlashAttention-2成功地推进了上下文窗口的扩展（同时仍保留了原始Transformer架构的基本限制）。

LongNet代表了Transformer优化领域的重大进展，如论文《LONGNET:ScalingTransformersto1,000,000,000Tokens》中所述。这一创新方法旨在将语言模型的上下文窗口扩展到前所未有的10亿令牌，大幅提升了处理和分析大规模数据的能力。

LongNet的扩张注意力机制具有线性计算复杂度，相比于普通Transformer的二次复杂度有了显著改进。

如果您想更深入了解这些模型，建议阅读《大型语言模型调查》一文。

这段历史记录了语言模型的发展，从早期的统计模型到首个大型语言模型（LLMs）的诞生。这个章节不是深入的技术研究，而是以故事的形式探索模型的构建过程。如果某些模型的具体细节显得复杂，不必担心。

自然语言处理（NLP）模型的演变是不断创新和改进的故事。1954年，词袋模型（BagofWords，BOW）作为一种简单的计数方法出现，它通过计算文档中单词的出现频率进行建模。然后在1972年，TF-IDF模型出现，通过基于单词的稀有度或频率调整单词计数，改进了这一策略。2013年，Word2Vec的出现标志着一个重大突破。这个模型使用词嵌入捕捉了单词之间微妙的语义联系，而以前的模型则无法做到这一点。

随后，递归神经网络（RNNs）的出现进一步推动了模型的发展。RNNs能够学习序列中的模式，使它们能够有效处理各种长度的文档。

随后的几年中，模型不断发展。每一个新模型，如RoBERTa、XLM、ALBERT和ELECTRA，都引入了额外的增强和优化，推动了NLP领域的可能性边界。

自然语言处理的进步，从基本的词袋模型（BagofWords）开始，带我们走到了今天的先进而高度复杂的基于Transformer的模型。大型语言模型（LLMs）是强大的架构，它们在大量的文本数据上进行训练，能够理解和生成几乎与人类语言相似的文字。基于Transformer设计的LLMs在捕捉语言中的长期依赖性和通过自回归过程生成文本方面表现出色。

2020年和2021年是大型语言模型（LLMs）发展的关键时刻。在此之前，语言模型的主要目标是生成连贯且上下文适宜的消息。然而，这些年的LLMs进步引发了一次范式转变。

从预训练语言模型到大型语言模型（LLMs）的历程，标志着LLMs的独特特性，例如扩展规律的影响以及如上下文学习、逐步推理技术和指令跟随等能力的出现。这些新兴能力是LLMs成功的核心，在少量示例和增强提示等场景中得到了展示。然而，扩展也带来了偏见和毒性等挑战，需要仔细考虑。

LLMs中的新兴能力将焦点转向通用模型，开辟了超越传统NLP研究的新应用领域。上下文窗口的扩展在这一转变中也发挥了关键作用。诸如FlashAttention-2等创新，通过优化注意力层的速度和内存使用，以及引入“扩张注意力”方法的LongNet，为上下文窗口可能扩展到10亿个标记铺平了道路。

在本章中，我们探讨了LLMs的基本概念、历史和演变。我们通过实际示例实验了标记化、上下文和少量示例学习等概念，并识别了LLMs中固有的问题，如幻觉和偏见，强调了缓解措施。

关于评估基准和优化技术的研究论文可以在towardsai.net/book找到。

THE END

构建生产环境中的大型语言模型（LLMs）——大型语言模型（LLMs）简介什么是大型语言模型（LLMs）现在，你可能已经

组织架构：如何打造匹配不同发展阶段产品的产研团队？方向生命周期

益先科技

开源AI模型生产平台YMIR加速视觉模型开发与迭代云天励飞未来工厂技术总监胡文泽主讲回顾文章

福建省工业和信息化厅关于开展2019年福建省智能制造试点示范企业与样板工厂（车间）项目认定申报工作的通知工业信息发展

第二讲软件生命周期AllWillGoOn

公示公告中国南方电网

中国石油大学华东复试油藏工程大体思路专业课考研资料

南方电网公司2024年生产域AI算法应用竞赛

构建生产环境中的大型语言模型（LLMs）——大型语言模型（LLMs）简介什么是大型语言模型（LLMs）现在，你可能已经

都是做体系管理工作的，你别说不知道APQCPCF哟

用飞桨一站式搞定大模型生产PaddleFleetX大模型开发套件业内首发人工智能

新能源动力电池热管理方案设计SpaceClaimStarCCM+生热传热新能源

沪市上市公司公告（3月28日）

产业应用案例