# 在实践中利用 LLMs 的能力：对 Chatgpt 和更大范围的调研

原论文：Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

本文为从事大型语言模型 (Large Language Models，LLMs) 工作的从业者和最终用户在其下游自然语言处理 ( Natural Language Processing，NLP ) 任务中提供了一个全面而实用的指南。我们从模型、数据和下游任务的角度对 LLMs 的使用提供了讨论和见解。首先，我们对现有的 GPT 型和 BERT 型 LLM 进行了简单的介绍和总结。然后，我们讨论了预训练数据、训练数据和测试数据的影响。最重要的是，我们对各种自然语言处理任务的大型语言模型的使用和非使用情况进行了详细的讨论，例如知识密集型任务、传统的自然语言理解任务、自然语言生成任务、突现能力和注意事项

# 1. INTRODUCTION 导语

近年来，大语种模型的快速发展使自然语言处理领域发生了革命性的变化。这些强大的模型在解决各种各样的 NLP 任务方面表现出了巨大的潜力，从自然语言理解 (NLU) 到生成任务，甚至为人工智能 ( AGI ) 铺平了道路。然而，有效和高效地利用这些模型需要对它们的能力和局限性以及 NLP 中涉及的数据和任务有实际的了解。

为了给分区者和最终用户提供指导，本工作重点关注在下游 NLP 任务中使用 LLM 的实际方面。该指南旨在为给定任务为什么选择 LLM 或为什么不选择 LLM 提供实用的建议，并就如何选择最合适的 LLM 提供指导，同时考虑到模型大小、计算要求和特定领域预训练模型的可用性等因素。这项工作从实践的角度提供了对 LLMs 的透彻理解，因此，为实践者和最终用户提供了成功利用 LLMs 的力量来完成自己的 NLP 任务所需的实用知识。

本文的结构如下。首先，本文通过讨论最重要的模型（例如 GPT 类和 BERT 类架构）来简要介绍 LLM。然后，我们从数据角度深入研究影响模型性能的关键因素，包括预训练数据、训练 / 调优数据和测试数据。最后也是最重要的是，我们深入研究各种具体的 NLP 任务，深入了解 LLMs 对知识密集型任务、传统 NLU 任务和生成任务的适用性，以及这些模型拥有的新兴能力和挑战现实场景的能力。我们提供详细的示例来强调 LLMs 在实践中的成功用例和局限性。

为了分析大型语言模型的能力，我们将它们与微调模型进行比较。截至目前，LLMs 和微调模型还没有普遍认可的定义。考虑到实用性，在我们的文章中，它们的定义是：LLM 是在大量数据集上预训练的巨大语言模型，无需针对特定任务调整数据；微调模型通常是较小的语言模型，它们也经过预训练，然后在较小的特定于任务的数据集上进一步调整，以优化其在该任务上的性能 1。

本文总结了以下使用 LLMs 的主要实用指南：

・自然语言理解。当面对分布外数据或训练数据很少时，可以利用 LLMs 卓越的泛化能力。

・自然语言生成。利用 LLMs 的能力为各种应用程序创建连贯、上下文相关且高质量的文本。

・知识密集型任务。利用 LLMs 中存储的广泛知识来完成需要特定领域专业知识或一般世界知识的任务。

・推理能力。理解并利用 LLMs 的推理能力来改善各种情况下的决策和问题解决。

# 2. PRACTICAL GUIDE FOR MODELS 模型实用指南

本节简要介绍最先进的 LLMs。这些模型的训练策略、模型架构和用例有所不同。为了更清楚地了解 LLM 轮廓，我们将它们分为两种类型：编码器 - 解码器（encoder-decoder) 或仅编码器 (decoder-only) 语言模型和仅解码器语言模型。在图 1 中，我们展示了语言模型的详细演化过程。从进化树中，我们得出以下有趣的观察：

upload successful

图 1. 现代 LLMs 的进化树追溯了近年来语言模型的发展，并重点介绍了一些最著名的模型。同一分支上的模型关系更密切。基于 Transformer 的模型以非灰色显示：仅解码器模型在蓝色分支中，仅编码器模型在粉色分支中，编码器 - 解码器模型在绿色分支中。模型在时间线上的垂直位置代表其发布日期。开源模型由实心方块表示，而闭源模型由空心方块表示。右下角的堆积条形图显示了来自各个公司和机构的模型数量。

a) 仅解码器模型已逐渐主导 LLMs 的发展。在 LLMs 发展的早期阶段，仅解码器模型并不像仅编码器和编码器 - 解码器模型那么流行。然而，2021 年之后，随着改变游戏规则的 LLM - GPT-3 的引入，仅解码器模型经历了显着的繁荣。与此同时，在 BERT 带来最初的爆炸性增长之后，仅编码器的模型逐渐开始消失。

b) 无论是当前还是未来，OpenAI 始终保持其在 LLMs 领域的领先地位。其他公司和机构正在努力赶上 OpenAI 开发与 GPT-3 和当前 GPT-4 相当的模型。这一领先地位可能归功于 OpenAI 对技术道路的坚定承诺，即使最初并未得到广泛认可。

c) Meta 对开源 LLMs 做出了重大贡献，并促进了 LLMs 的研究。在考虑对开源社区的贡献，特别是与 LLMs 相关的贡献时，Meta 脱颖而出，成为最慷慨的商业公司之一，因为 Meta 开发的所有 LLMs 都是开源的。

d) LLMs 表现出闭源的趋势。在 LLM 发展的早期阶段（2020 年之前），大多数模型都是开源的。然而，随着 GPT-3 的引入，越来越多的公司选择闭源他们的模型，例如 PaLM、LaMDA 和 GPT-4。因此，学术研究人员对 LLM 培训进行实验变得更加困难。因此，基于 API 的研究可能成为学术界的主要方法。

# 2.1 BERT 类的语言模型：编码器 - 解码器或仅编码器

自然语言数据很容易获得，并且无监督训练范例也已被提出以更好地利用极大的数据集，这促进了自然语言的无监督学习。一种常见的方法是在考虑周围上下文的同时预测句子中被掩盖的单词。这种训练范例被称为 “掩码语言模型”。这种类型的训练使模型能够更深入地理解单词及其使用上下文之间的关系。这些模型使用 Transformer 架构等技术在大型文本语料库上进行训练，并在许多 NLP 任务（例如情感分析和命名实体识别）中取得了最先进的结果。掩码语言模型的著名示例包括 BERT [28]、RoBERTa [65] 和 T5 [84]。由于在广泛的任务中取得的成功，MLM 已成为自然语言处理领域的重要工具。

# 2.2 GPT 类的语言模型：仅解码器

尽管语言模型在架构上通常与任务无关，但这些方法需要对特定下游任务的数据集进行微调。研究人员发现，扩展语言模型可以显着提高少样本甚至零样本的性能 [16]。实现更好的少镜头和零显示性能的最成功的模型是自回归语言模型，它是通过在给定前面的单词的情况下生成序列中的下一个单词来训练的。这些模型已广泛用于文本生成和问答等下游任务。自回归语言模型的示例包括 GPT-3 [16]、OPT [126]、PaLM [22] 和 BLOOM [92]。游戏规则改变者 GPT-3 首次通过提示和上下文学习展示了合理的少样本 / 零样本性能，从而展示了自回归语言模型的优越性。

还有一些模型，例如针对代码生成等特定任务进行优化的 CodeX [2]，以及针对金融领域的 BloombergGPT [117]。最近的突破是 ChatGPT，它专门针对对话任务改进了 GPT-3，从而为各种现实世界的应用程序提供了更具交互性、连贯性和上下文感知能力的对话。

# 3. PRACTICAL GUIDE FOR DATA 数据实用指南

在本节中，我们将讨论数据在为下游任务选择适当模型时所发挥的关键作用。数据对模型有效性的影响从预训练阶段开始，一直持续到训练和推理阶段。

注1. 
(1) 在面对分布外数据的下游任务（例如对抗性示例和领域转移）中，LLM 比微调模型具有更好的泛化能力。 
(2) 当处理有限的注释数据时，LLM 比微调模型更可取，并且当有丰富的注释数据可用时，根据具体任务要求，两者都是合理的选择。 
(3) 建议选择在与下游任务相似的数据领域进行预训练的模型。

# 3.1 预训练数据

预训练数据在大型语言模型的开发中起着至关重要的作用。作为 LLMs 卓越能力的基础 [5, 47]，预训练数据的质量、数量和多样性显着影响 LLMs 的表现 [124]。常用的预训练数据由大量文本源组成，包括书籍、文章和网站。这些数据经过精心整理，以确保全面代表人类知识、语言细微差别和文化观点。预训练数据的重要性在于它能够为语言模型提供对单词知识、语法、句法和语义的丰富理解，以及识别上下文和生成连贯响应的能力。预训练数据的多样性在塑造模型性能方面也起着至关重要的作用，LLM 的选择很大程度上取决于预训练数据的组成部分。例如，PaLM [22] 和 BLOOM [92] 在多语言任务和机器翻译方面表现出色，拥有丰富的多语言预训练数据。此外，PaLM 在问答任务中的表现通过纳入大量社交媒体对话和书籍语料库得到了增强 [22]。同样，GPT-3.5 (code-davinci-002) 的代码执行和代码完成功能通过将代码数据集成到其预训练数据集中而得到增强。简而言之，在为下游任务选择 LLM 时，建议选择在类似数据领域预训练的模型。

# 3.2 数据微调

在为下游任务部署模型时，必须根据注释数据的可用性考虑三个主要场景：零样本、少样本和富样本。在本节中，我们简要概述了每种场景所采用的适当模型。

零标注数据：在标注数据不可用的场景下，在零样本环境下使用 LLMs 被证明是最合适的方法。LLMs 已经被证明优于以前的零样本方法 [120]。此外，由于没有参数更新过程，避免了灾难性遗忘 [ 49 ]，因为语言模型参数保持不变。

少量标注数据：在这种情况下，少量样本直接被纳入 LLMs 的输入提示中，命名为语境学习，这些样本可以有效地指导 LLMs 泛化到任务中。正如文献 [16] 所报道的那样，单样本和少样本的性能获得了显著的提升，甚至与 SOTA 微调的开放域模型的性能相当。和通过缩放可以进一步提高 LLMs 的零 / 小样本能力 [ 16 ]。另外，一些小样本学习方法被发明来增强微调模型，如元学习 [ 56 ] 或迁移学习 [ 88 ]。然而，由于微调模型的规模较小和过拟合，与使用 LLMs 相比，性能可能较差。

丰富的标注数据：对于一个特定的任务，有大量的标注数据，可以考虑微调模型和 LLMs。在大多数情况下，对模型进行微调可以很好地拟合数据。虽然，LLMs 可以用来满足隐私等一些约束 [99]。在这种场景中，使用微调模型或 LLM 之间的选择是任务特定的，也取决于许多因素，包括期望的性能、计算资源和部署约束。

简言之：LLMs 在数据可用性方面更具通用性，而微调模型可以考虑使用丰富的标注数据。

# 3.3 测试数据 / 用户数据

在为下游任务部署 LLM 时，由于测试 / 用户数据与训练数据的分布差异，我们经常面临挑战。这些差异可能包括域转移 [132]，分布外变化 [ 31 ]，甚至是对抗样本 [ 82 ]。这些挑战严重阻碍了微调模式在实际应用中的有效性。它们拟合成特定的分布，对 OOD 数据的泛化能力较差。然而，面对这样的场景，LLMs 表现得相当不错，因为它们没有明确的拟合过程。不仅如此，最近的进展也进一步增强了语言模型在这方面的能力。基于人类反馈的强化学习 ( RLHF ) 方法显著增强了 LLMs 的泛化能力 [ 77 ]。例如，InstructGPT 能够熟练地按照各种指令完成广泛的任务，偶尔遵守不同语言的指令，即使这样的指令很少。类似地，ChatGPT 在大多数对抗和非分布 ( out-of- distribution，OOD ) 分类和翻译任务上表现出一致的优势 [ 109 ]。其在理解对话相关文本方面的优势使其在用于 OOD 评估的医学诊断数据集 DDXPlus [ 101 ] 上获得了令人印象深刻的性能。

# 4. PRACTICAL GUIDE FOR NLP TASKS NLP 任务实践指南

在这一部分，我们详细讨论了 LLM 在各种下游 NLP 任务中的用例和无用例以及相应的模型能力。在图 2 中，我们将所有的讨论归纳为一个决策流。它可以作为面对任务时快速决策的指南。

# 4.1 传统 NLU 任务

传统的 NLU 任务是 NLP 中的一些基础任务，包括文本分类、命名实体识别 (NER)、蕴含预测等。其中许多被设计为在更大的人工智能系统中充当中间步骤，例如用于知识图谱构建的 NER。

upload successful

图 2 . 用户 NLP 应用选择 LLM 或微调模型的决策流程 (2)。决策流帮助用户评估其手头的下游 NLP 应用是否满足特定条件，并根据该评估确定 LLM 或微调模型是否最适合其应用。图中决策过程中，Y 表示满足条件，N 表示不满足条件。最后一个条件的 Y 的黄圈表示在这种应用中没有模型能很好地工作。

注2. 在传统的NLU任务中，微调模型通常是比LLMs更好的选择，但LLMs在要求强泛化能力的同时可以提供帮助。

# 4.1.1 无使用案例

在大多数自然语言理解任务中，如 GLUE [106] 和 SuperGLUE [ 105 ] 中的任务，如果这些任务具有丰富的标注数据，并且在测试集上包含非常少的非分布示例，那么微调后的模型仍然具有更好的性能。对于不同的任务和数据集，小的微调模型和 LLM 之间的差距是不同的

在文本分类中，在大多数数据集上，LLMs 的表现略差于微调模型。对于情感分析，例如在 IMDB [69] 和 SST [ 94 ] 上，微调模型和 LLM 同样表现良好。对于另一个标志性的文本分类任务 -- 毒性检测，差距要大得多。所有的 LLM 都不能很好地完成这个任务，在 Civil Comments [ 13 ] 上即使是最好的也只比随机猜测好 [ 59 ]。另一方面，大多数受欢迎的微调模型可以获得更好的性能 [ 33 ]，而 Perspective API 3 仍然是检测毒性的最佳方法之一。该 API 由基于 BERT 的多语言模型驱动，该模型基于公开的毒性数据和从该模型中提取的几个较小的单语言 CNN 进行调优。这可能是由于毒性是通过语言表达中的细微差别来定义的，而大型语言模型无法仅根据提供的输入准确地理解这项任务。

在其他一些任务中，性能差距的趋势也类似。对于自然语言推理 (Natural Language Inference，NLI) 任务，在大多数数据集上，如 RTE [ 106 ] 和 SNLI [ 14 ] 上，微调模型表现优于 LLMs，而在一些数据集上，如 CB [ 105 ]，LLMs 获得了与微调模型相当的性能 [ 22 ]。

对于问答 (QA)，在 SQuADv2 [ 86 ]、QuAC [ 21 ] 等数据集上，微调模型具有优越的性能，而在 CoQA [ 87 ] 上，LLMs 表现与微调模型相当 [ 22 ]。

在信息检索 (Information Retrieval，IR) 任务中，LLMs 尚未得到广泛的应用。其中一个主要原因是 IR 任务与其他任务有着根本的不同。没有一种自然的方法可以将成千上万的候选文本转换成 LLMs 所要求的少量 / 零样本形式。现有关于 MS MARCO ( Regular / TREC ) [ 73 ] 的评估结果表明，基于微调模型的方法具有更好的性能 [ 59 ]。在这种评估中，LLMs 以一种非正统的方式对通道进行排序，这要求 LLMs 逐个为通道产生概率。

对于一些不针对普通用户而是针对高层任务的低层次中间任务，如命名实体识别 (NER)、依存句法分析等，LLMs 的结果并不充分，因为目前对 LLMs 的评价大多集中于实际任务。根据现有的评估结果，对于 NER 任务，Co NLL03 [ 89 ] 仍然是 LLMs 的一个挑战 [ 81 ]，其中微调模型的性能大约是 LLMs 的两倍。这些中间任务可能很快消失，因为 LLMs 可以在没有这些中间任务 (例如，编码任务的依存句法分析；一些文本生成任务的 NER) 的帮助下接管高级任务。

总之，对于大多数传统的 NLU 任务，从基准数据集上的性能和计算成本来看，微调模型是一个更好的选择。LLMs 的尺度通常比微调模型大 10 × 甚至 100 ×。LLMs 在某些任务上表现不佳的一个可能原因是指令 / 提示的设计。将 IR 和句子标注等任务的输入转化为少 / 零短指令形式是非平凡的。未来可能有更好的方法将语言模型适配到传统的 NLP 任务中。另一方面，微调模型的能力上限尚未达到，一些方法如 FLAN - tuning [67] 可以进一步提升 NLU 任务的性能。另一个有趣的发现是，在 NLU 任务上，经过微调后，

# 4.1.2 使用案例。然而，仍有一些 NLU 任务适用于 LLMs

其中一个代表性的任务是杂项文本分类 [59]。与经典的特定领域文本分类任务 (如情感分析) 不同，繁杂的文本分类处理的是各种各样的主题和类别，这些主题和类别之间可能没有明确或强烈的关系。使用微调后的模型更接近真实世界的情况，并且难以格式化。另一个是对抗的 Nli ( Anli ) [ 74 ]。它是由 3 轮 ( R1、R2、R3) 中对抗式挖掘的自然语言推理问题组成的困难数据集。LLMs 在 ANLI 上表现出了优越的性能，尤其是在 R3 和 R2 上。这两个例子都证明了 LLMs 在传统 NLP 任务中对分布外和稀疏标注数据的良好泛化能力，超过了微调模型。我们在 3.3 节以上对此进行了讨论。

# 4.2 生成任务

自然语言生成大致包括两大类任务，其目标是创建连贯的、有意义的和上下文相关的符号序列。第一类方法侧重于将输入文本转换为新的符号序列，例如段落摘要和机器翻译等任务。第二类是 "开放式" 生成，旨在从头开始生成文本或符号，以准确匹配输入描述，如制作电子邮件、撰写新闻文章、创建虚构故事和编写代码。

注3. 由于LLMs具有较强的生成能力和创造力，在大多数生成任务上表现出优势。

# 4.2.1 用例。生成任务要求模型对输入内容或需求有全面的理解，并具有一定的创造性。这正是 LLMs 擅长的

对于摘要任务，虽然在传统的自动评价指标下，如 ROUGE [60]，LLMs 与微调模型相比并没有明显的优势，但是人类的评价结果表明，与微调模型相比，人类更倾向于使用 LLMs [ 38、127 ] 生成的结果。例如，在 CNN / Daily Mail [ 71 ] 和 XSUM [ 72 ] 上，Brio [ 66 ] 和 Pegasus [ 125 ] 等微调模型的性能远远优于其他 LLM。ROUGE，但是像 OPT [ 126 ] 这样的 LLMs 在人的评价方面表现得更好，包括忠实性，连贯性和相关性 [ 127 ]。这说明了 LLMs 在摘要任务中的优越性。另一方面，这也意味着当前的摘要基准并不包含高质量的摘要，或者自动度量指标不适合摘要的评价。

在机器翻译 (MT) 中，LLMs 可以执行有能力的翻译，尽管平均性能略差于一些商业翻译工具 [ 45 ]，考虑到一些自动度量，如 BLEU [ 78 ]。LLMs 特别擅长将一些低资源语言文本翻译成英文文本，如在 WMT'16 的罗马尼亚语 - 英文翻译中 [ 11 ]，零样本或少样本的 LLMs 比 SOTA 微调模型表现更好 [ 22 ]。这主要是由于英语资源构成了预训练数据的主要部分。BLOOM [ 92 ] 在更多的多语种数据上进行预训练，在资源丰富和资源匮乏的翻译中都取得了更好的翻译质量。另一个有趣的发现是，BLOOM 在罗曼司语言中取得了很好的翻译质量，即使是来自加利西亚语的翻译，也没有包含在预训练数据中。一个合理的解释是，来自同一语言组的一些语言的文本可以帮助 LLM 从相似性中学习更多。如果能在预训练数据中加入更多的多语种文本，翻译能力可能会进一步提高。

此外，LLMs 在开放式一代中具有很高的技能。一个例子是 LLMs 生成的新闻文章与人类真实的新闻文章几乎无法区分 [16]。LLMs 也非常适合于代码合成。无论是在文本代码生成方面，如 HumanEval [ 18 ] 和 MBPP [ 7 ]，还是在代码修复方面，如 DeepFix [ 39 ]，LLMs 都能取得很好的效果。GPT-4 甚至可以通过 Leetcode 中 25 % 的问题，这对于大多数人类编码员来说已经足够称道 [ 76 ]。随着对更多编码数据的训练，LLMs 的编码能力可以进一步提高 [ 22 ]。在这些任务上表现良好的同时，LLMs 生成的代码应该经过仔细的测试，以找出任何细微的错误，这也是 LLMs 应用于代码合成的主要挑战之一。

# 4.2.2 无用例。

经过微调的模型，如 DeltaLM + Zcode [118]，在大多数资源丰富的翻译和资源极低的翻译任务上仍然表现最好。在资源丰富的机器翻译中，微调模型略优于 LLMs [ 22、92 ]。而在资源极低的机器翻译中，如英语 - 哈萨克语翻译，微调模型的表现明显优于 LL

# 4.3 知识密集型任务

知识密集型 NLP 任务是指对背景知识、特定领域专业知识或一般现实世界知识具有较强依赖性的一类任务。这些任务超越了简单的模式识别或语法分析。并且它们高度依赖于对特定实体、事件和我们现实世界的常识的记忆和正确利用。

注4. 
(1) LLMs因其海量的真实世界知识而擅长知识密集型任务。

(2)当知识需求与学习到的知识不匹配时，或者当他们面对只需要上下文知识的任务时，LLMs就会挣扎，在这种情况下，微调模型可以和LLMs一样工作。

# 4.3.1 用例。一般而言，在数十亿的训练 token 和参数下，LLMs 比微调模型拥有更多的真实世界知识。

封闭式问答任务要求模型在没有任何外部信息的情况下回答关于事实性知识的给定问题。它确实需要对模型中的真实世界知识进行记忆。LLM 在几乎所有的数据集上都有较好的表现，比如在 NaturalQuestions [52]、WebQuestions [ 9 ] 和 TriviaQA [ 46 ] 上。在 Trivia QA 上，即使是零样本的 LLM 也要好很多 [ 22 ]。

大规模多任务语言理解 (MMLU) [ 40 ] 也是知识密集型的。它包含跨越 57 个不同科目的多项选择题，要求具备模型的一般知识。尽管新发布的 GPT - 4 [ 76 ] 在英语中比现有模型有相当大的提升，达到了令人满意的 86.5 % 的准确率，但即使对于 LLMs 也是相当具有挑战性的。

此外，Big-bench [96] 中的一些任务严重依赖于对现实世界知识的记忆，这些任务旨在探测 LLM 并推断其未来能力。在此类任务中，部分 LLM 的表现优于人类平均水平，甚至与人类最佳表现相当。例如，任务 Hindu _ knowledge 需要模型给出有关印度教神话的事实，Periodic Elements 需要从元素周期表中预测元素名称的能力，Physical 通过询问解决给定物理问题所需的公式来测试模型的物理知识。

# 4.3.2 无用例。还有一些任务需要的知识与 LLM 学习的知识不同。所需的知识并不是 LLM 学习到的关于真实世界的知识。在这类任务中，LLMs 并不具有显著优势。

有些任务只需要模型捕获上下文中自包含的知识。来自输入的上下文中的知识足以让模型做出预测。对于这些任务，小的微调模型可以很好地工作。其中之一就是机器阅读理解 (MRC)。MRC 任务提供若干个段落，并要求模型根据这些段落预测问题的答案。我们在上一节已经讨论了 MRC，因为它也是一个传统的 NLU 任务。

另一种情况是 LLMs 内关于真实世界的知识对任务无用，甚至所需知识对真实世界是反事实的。因此，LLMs 不能很好地完成这些任务。在某些情况下，不一致的知识甚至会使 LLMs 比随机猜测更糟糕。例如，在 Big - Bench 中，Mnist ascii 任务要求模型说出 ASCII 艺术所代表的数字。这项任务所需要的能力与真实世界的知识无关。此外，在逆尺度现象竞赛 [70] 中，任务重新定义数学重新定义了一个共同的符号，并要求模型在原始意义和重新定义衍生的意义之间进行选择。它所要求的与 LLMs 的知识形成对比，因此 LLMs 的表现甚至比随机猜测更差。

作为 LLMs 中真实世界知识的替代，允许获取额外的知识，模型可以通过检索增强获得足够的任务知识。检索增强的基本思想是在进行预测之前增加一个额外的信息检索步骤，在这个步骤中，一些与任务相关的有用文本将从大型语料库中检索出来。然后，模型将根据输入的上下文和检索到的文本进行预测。有了检索到的额外信息，闭卷任务可以变成 "开卷"。在这样的场景下，微调的模型以更小的尺寸非常好，因为所需的知识可以通过检索获得。例如，在 NaturalQuestions [52] 上，在有额外语料的情况下，检索增强模型 [ 44、48] 明显优于其他方法。

# 4.4 规模化能力

LLMs (例如参数、训练计算等。) 的扩展可以极大地增强预训练语言模型的能力。随着模型规模的扩大，一个模型通常在一系列任务中变得更有能力。反映在一些度量指标上，性能表现出与模型规模的幂律关系。例如，用于衡量语言建模性能的交叉熵损失随着模型规模的指数增长而线性下降，也被称为 "定标关系" [ 41、47 ]。对于一些至关重要的能力，如推理，模型的扩展使这些能力从非常低的状态逐渐转化为可用状态，甚至接近人类的能力。在本节中，我们从 LLMs 的能力和行为随尺度变化的角度概述了 LLMs 的使用情况。

注5. 
(1)随着模型规模的指数增长，LLMs变得特别具有推理能力，如算术推理和常识推理。
(2)随着LLMs规模的扩大，涌现能力成为使用的偶然性，如单词操纵能力和逻辑能力。
(3)在很多情况下，由于对大型语言模型的能力随着规模的扩大而变化的理解有限，性能并没有随着规模的扩大而稳步提高。

# 4.4.1 推理用例。

推理是人类智能的重要方面之一，涉及信息的感知、推理和决策。这对于 NLP 来说是一个挑战。现有的许多推理任务可以分为常识推理和算术推理。

算术推理 / 问题解决。 LLMs 的算术推理能力很大程度上得益于模型规模的缩放。对于 GPT-3 来说，只有当参数个数超过 13B 时，两位加法的能力才变得明显 [16]。测试算术推理的任务对于人类来说是微不足道的，旨在挑战将自然语言转化为数学符号和多步推理的能力。在 GSM8k [ 26 ]，SVAMP [ 79 ] 和 AQuA [ 61 ] 上，LLMs 作为通才，与大多数具有特定任务设计的方法具有竞争性的性能。和 GPT-4 超越了任何其他方法 [ 76 ]，甚至是一些专门针对算术问题的大型模型 [ 104 ]。然而，值得注意的是，在没有外部工具干预的情况下，LLMs 在执行基本计算时可能偶尔会出错，尽管思维链 ( CoT ) 提示 [ 115 ] 可以显著提高 LLMs 的计算能力。

常识性推理。 常识性推理不仅要求 LLM 记忆事实性知识，还要求 LLM 对事实做若干推理步骤。常识推理随着模型规模的增长而逐渐增加。相比于微调模型，LLMs 在大多数数据集上保持了优势，如 Strategy QA [36] 和 ARC - C [ 25 ]。特别是在 3 - 9 年级理科考试中包含较难题目的 ARC - C 上，GPT - 4 的成绩已经接近 100 % ( 96.3 % ) [ 76 ]。

# 4.4.2 具有突现能力的用例。

模型的尺度化也赋予了模型超越幂律法则的一些前所未有的、奇妙的能力。这些能力被称为 "突现能力"。正如 [113] 中定义的，LLMs 的突现能力是指在小规模模型中不存在的能力，但在大规模模型中存在的能力。这意味着这种能力无法通过外推较小规模模型的性能提升来预测，一旦规模超过一定范围，模型在某些任务上突然获得了良好的性能。突现能力通常是不可预测和令人惊讶的，导致任务随机或意外地出现。我们考察了 LLMs 突现能力的具体实例，并将其作为决定是否利用 LLMs 突现能力的重要参考。

处理单词操作是一种典型的涌现能力。它指的是学习符号操作的能力，例如反向单词 [16]，其中模型被赋予一个反向拼写的单词，并且必须输出原始单词。例如。GPT-3 [ 16 ] 显示了对单词排序和单词解读任务的突现能力。PaLM [ 22 ] 在 ASCII 词识别 4 和倒装法 5 任务上表现出了突现能力。语言模型的逻辑能力往往会随着模型规模的扩大而显现出来，如逻辑推理、逻辑序列、逻辑网格之谜等。此外，其他任务，如高级编码 (例如，自动调试、代码行描述等)、概念理解 (例如，新颖的概念、简单的图灵概念等) 等，也是具有大型语言模型涌现能力的用例。

# 4.4.3 无用例与理解。尽管在大多数情况下，如前所述，较大的模型带来更好的性能，但在选择合适的模型时仍有许多例外情况需要考虑。

在某些任务上，随着 LLMs 规模的增加，性能开始下降，如 Redefine-math：测试语言模型在被重新定义为其他含义时，是否能够与普通符号一起工作；Intothe-unknown：要求模型选择哪条信息有助于回答某个问题；Memo-trap：要求 LM 以类似名言的方式开始写短语，但以不同的方式结束。这也被称为逆标度现象 (inverse scaling phenomenon)。在 LLMs 的缩放过程中观察到的另一个有趣的现象被称为 U 型现象 [ 114 ]。顾名思义，这种现象指的是随着 LLM 规模的增加，他们在某些任务上的表现最初提高，然后开始下降，最后再提高，例如：Hindsight-neglect：它测试语言模型是否能够根据其期望值来评估赌注是否值得采取；NegationQA：该任务采用现有的多项选择数据集，对每个问题的一部分进行否定，看语言模型是否对否定敏感；Quote-repetition：它要求模型重复提示中给出的句子，用少量的例子来帮助它识别任务。因此，应该注意到绩效递减的风险，如果任务与我们刚才讨论的类似，则需要仔细考虑是否使用大型的 LLM。

深入理解 LLMs 中的涌现能力、逆标度现象和 U 型现象 (inverse scaling phenomenon) 对于推进该领域的研究至关重要。从某种意义上说，"U" 形现象表明，小尺度模型和大尺度模型的预测具有不同的内在机制。从这个角度来看，U 型现象可以被看作是逆标度现象的一种转化，这是由于足够大的模型具有某种突现能力 [ 114 ]。GPT-4 [ 76 ] 在某些情况下表现出逆标度现象的反转，例如在一个名为 Hindsight Neglect 的任务上。对于 LLMs 在尺度缩放过程中的这些行为的解释仍然是一个开放的问题。已有研究提出了几个假设。对于突现能力，一种解释是一个任务可能有多个关键步骤，LLM 不能处理这个任务，直到它足够大来处理每个步骤；另一种解释是集中在评估度量的粒度上 [ 113 ]。对于逆尺度现象和 "U" 形现象，解释主要集中在模型过度依赖先验信息而非输入提示、有效但误导性的小样本、分心困难任务中较容易的任务等方面 [ 114 ]。

# 4.5 杂项任务

本部分探讨了以往讨论中无法涉及的杂项任务，以更好地理解 LLMs 的优势和劣势。

注6 
(1)微调模型或指定模型在距离LLMs预训练目标和数据较远的任务中仍有空间。
(2) LLMs在模拟人类、数据标注和生成方面表现优异。它们也可以用于NLP任务中的质量评估，并具有可解释性等优点。

尽管 LLMs 在各种自然语言处理任务中取得了显著的成功，但其在回归任务中的表现却不尽如人意。例如，ChatGPT 在评价句子相似度的回归任务 GLUE STS-B 数据集上的表现不如微调后的罗伯塔 [130]。回归任务通常涉及预测连续值而不是离散标签，这对 LLMs 提出了独特的挑战。导致他们表现不佳的一个主要原因是语言建模目标和回归任务目标之间的固有差异。LLMs 旨在预测序列中的下一个单词或生成连贯的文本，其预训练侧重于捕获语言模式和关系。因此，它们的内部表示可能不适合于建模连续的数值输出。此外，LLMs 主要在文本数据上进行训练，侧重于捕获自然语言处理的复杂性。因此，它们在处理文本、图像、音频、视频、动作和机器人等多种数据类型的多模态数据方面的性能仍有待探索。而经过微调的多模态模型，如 BEiT [ 110 ] 和 PaLI [ 19 ]，仍然主导着视觉问答 ( VQA ) 和图像描述等任务。尽管如此，最近推出的 GPT - 4 [ 76 ] 已经迈出了多模态融合的步伐，但仍缺乏对其能力的详细评估。

# 4.5.2 用例。LLMs 特别适用于某些任务。

LLMs 非常擅长模仿人类，充当聊天机器人，执行各种任务。LLMs 驱动的 ChatGPT 以其在与人类的多次对话中的一致性、可靠性、信息性和鲁棒性而令人惊讶。人的反馈过程在这种能力的获得中起着重要的作用。

LLMs 既可以作为良好的注释器，也可以作为数据生成器进行数据扩充，如 in [27,29,99,121,122]。在一些任务中，一些 LLM 已经被发现和人类注释器一样好 [ 37 ]。并且从 GPT3.5 ( text-davinci 技术 - 003 ) 中收集的文本已经被用作类似人类的指令跟随演示来训练其他语言模型 [ 100 ]。

LLMs 还可以用于一些 NLG 任务的质量评估，如摘要和翻译。在摘要任务中，GPT - 4 作为评价者与人类的相关度比其他方法高，且具有较大的裕度 [64]。其他一些基于 LLMs [ 34、50、64、108] 的评估者在更多的 NLG 任务中也表现出良好的人体对齐效果，尤其是与传统的自动度量相比。但 LLM 评价者可能对 LLM 生成的文本存在偏见 [ 64 ]。

此外，正如我们上面所讨论的，LLMs 的一些能力除了性能提升之外还带来了额外的好处，比如可解释性。LLMs 的 CoT 推理能力可以展示一个 LLM 是如何达到预测的，这在实例层面上是一个很好的解释，同时也提高了性能。

# 4.6 现实世界的 "任务"

在本节的最后一部分，我们想讨论 LLMs 和微调模型在现实 "任务" 中的使用。我们松散地使用 "任务" 一词，因为现实世界的场景往往缺乏像学术界那样格式良好的定义。许多对模型的请求甚至不能作为 NLP 任务处理。模型从三个角度在现实世界中面临挑战：

• 噪声 / 非结构化输入。 真实世界的输入来自真实世界的非专家。他们对如何与模型交互知之甚少，甚至不能流利地使用文本。因此，与那些用于预训练或微调的格式良好的数据不同，现实世界的输入数据可能是杂乱的，包含错字、口语化和混合语言。

• 学术界未形式化的任务。 在现实世界的场景中，任务往往被学术界定义得很模糊，并且比学术环境中的任务更加多样化。用户频繁地提出不整齐地属于预定义类别的查询或请求，有时多个任务在一个查询中。

• 遵循用户指令。 一个用户的请求可能包含多个隐式意图 (例如对输出格式的特定要求)，或者在没有后续问题的情况下，他们的期望预测可能不明确。模型需要理解用户意图并提供与这些意图一致的输出。

本质上，现实世界中的这些挑战来自于用户的请求与任何为特定任务设计的 NLP 数据集的分布存在显著的偏离。公开的 NLP 数据集并不反映模型的使用方式 [77]。

注7
与微调模型相比，LLMs更适合处理真实世界场景。然而，评估模型在真实世界中的有效性仍然是一个开放的问题。

处理这样的真实世界场景需要应对歧义、理解上下文和处理噪声输入。与微调的模型相比，LLMs 更好地适应了这一点，因为它们在包含各种写作风格、语言和领域的不同数据集上进行了训练。此外，LLMs 显示出强大的生成开放域响应的能力，使其非常适合这些场景。另一方面，微调的模型往往针对特定的、定义良好的任务，可能难以适应新的或意想不到的用户请求。它们在很大程度上依赖于明确的目标和结构良好的训练数据，这些数据指定了模型应该学习遵循的指令类型。微调后的模型由于对特定分布和结构化数据的关注较窄，可能会与噪声输入相抗争。通常需要一个额外的系统作为微调模型的辅助，以处理非结构化的上下文，确定可能的意图，并相应地细化模型响应。

此外，一些机制，如指令调整 [91、112] 和人体对齐调整 [ 77 ]，进一步增强了 LLMs 更好地理解和遵循用户指令的能力。这些方法在保持 [ 77、91、112] 的连贯性和一致性的同时，提高了模型生成有用、无害和诚实响应的能力。虽然这两种方法都可以使 LLMs 更好地泛化到不可见的任务和指令中，但人们注意到，虽然人类标记者更喜欢为人类对齐而调整的模型 [ 77 ]，而不是由公共 NLP 任务的指令调整的模型，例如 FLAN [ 112 ] 和 T0 [ 91 ]。其原因可能与微调模型的劣势相似：公开的 NLP 任务 / 数据集是为了简单和自动的评估而设计的，它们只能覆盖现实世界使用的一小部分。

在现实场景中，一个主要的问题是如何评估模型的好坏。在没有任何形式化任务或度量的情况下，模型有效性的评估只能依赖于人工标注者的反馈。考虑到人为评估的复杂性和成本，目前还没有大量的、系统的微调模型与 LLM 的比较。尽管如此，ChatGPT 等 LLMs 的巨大成功和普及在一定程度上证实了 LLMs 的优越性。

# 5.1 其他考虑

在实际部署中，性能、成本和延迟都是重要的考虑因素，而不仅仅是模型的性能。在一些参数有效的方法被开发出来的同时，实践者必须在效率和有效性之间取得平衡。

成本。 近年来，LLMs 的规模越来越大，如 GPT-1、GPT-2 和 GPT-3 的模型参数分别为 1.17 亿、15 亿和 1750 亿。训练一个 LLM 的成本受其大小的影响很大，据估计，训练 T5 的 11B 参数变体的单次运行成本远远超过 130 万美元，而训练 GPT-3 175B 的单次运行需要 460 万美元 [3]。训练大型模型的能耗同样令人印象深刻。训练一个具有 6B 个参数的变压器模型到完成时的总能耗估计约为 103.5 MWh [ 30 ]。谷歌报告称，在大约 2 个月的时间里，训练 PaLM 消耗了大约 3.4 GWh [ 6 ]。此外，数据集的规模也随着模型的规模而迅速扩大，GPT-3 175B 在 4990 亿个令牌上训练 [ 16 ]。另一个反映计算成本的关键指标是 Flops，GPT-3 175B 需要 3.14×10^23 个 Flops，而 T5 11B 模型只需要 3.30×10^22 个，减少了 10 倍。除了这些成本外，对硬件的要求也很高。OpenAI 与微软合作，在微软 Azure 云端托管的超级计算机上运行，该超级计算机由 285k 个 CPU 核心和 10k 个高端 GPU 组成，支持大型模型的训练。对于 OpenAI API 的用户，定价根据模型和使用情况而不同，如 GPT-3.5-turbo 每 1k token 收取 0.002 美元的选项用于聊天服务。然而，对于需要定制模型的用户来说，每 1k 个 token 需要花费 0.03 美元的训练成本，而每 1k 个 token 需要花费 0.12 美元的使用成本 [ 4 ]。因此，对于无法承担如此大成本的用户，如小型创业公司、个人用户等，一个小型的、微调的模型是一个更好更合理的选择。

延迟。 延迟是 LLMs 在实际应用中需要考虑的一个重要因素。推理时间是一种常用的度量延迟的指标，它高度依赖于模型大小、体系结构和 token 大小。例如，当最大 token 大小设置为 2、8 和 32 时，GPT-J 6B 模型的推理时间分别为 0.077 s、0.203 s 和 0.707 s。此外，当最大 token 大小固定为 32 时，InstructGPT 模型 (davinci v2) 的推理时间为 1.969s。由于 LLM 通常过于庞大，无法在单个用户的机器上运行，因此企业通过 API 提供 LLM 服务。API 延迟可以根据用户的位置而变化，单个请求的 OpenAI API 服务的平均延迟可以从几百毫秒到几秒不等。在高延迟不可接受的场景中，较大的 LLM 可能并不合适。例如，在许多信息检索应用中，可扩展性至关重要。为了在 Web 上部署信息检索系统，搜索引擎需要非常有效的推理才能使系统有用。InstructGPT davinci v2 (175B*) 模型的理想化去噪推理时间为 0.21s / 请求 (即，一个待评分的查询 - 段落对)，对于 Web 搜索引擎来说过于缓慢。

** 参数高效调优。** 在实际应用中，我们可以在一些特定的数据集上对模型进行调优。参数有效调优 (Parameter-Efficient Tuning，PET) 是一种有效的技术，可以在冻结预训练 LLMs 的大部分参数的同时调整模型参数 (或额外的参数) 的小部分。PEFT 的主要目标是在保持原有模型性能的前提下，大幅降低计算和存储成本。常用的 PET 技术有 LoRA [ 42 ]、Prefix Tuning [ 58 ]、P-Tuning [ 62、63 ] 等。作为示例，LoRA 方法保持了预训练模型的权重，并将低秩矩阵融入 Transformer 架构的每一层。该方法极大地减少了后续任务需要训练的参数数量，从而提高了整体效率。Alpaca-LoRA 提出将低秩自适应 (Low-Rank Adaption，LoRA) 集成到 LLaMA-Alpaca 中，使得 LLaMA 可以在单个 RTX 4090 上运行数小时。所有这些 PFT 方法都有助于将模型微调到特定的任务，或者调整 LLM 以满足人类对齐等特殊要求。

# 5.2 可信性

考虑到 LLMs 现在涉及医疗、金融和法律等敏感领域，确保它们是可信的并且能够产生可靠的输出至关重要。

稳健性与校准 LLMs 的准确性和鲁棒性被证明具有很强的相关性 [59]。场景上精度较高的模型也具有较好的鲁棒性。然而，在额外的应用特定任务数据上进行调整后，零样本的鲁棒性变差 [ 116 ]。这可能是由于过拟合导致的，由于模型的复杂度极高，且来自下游任务的训练样本有限，导致泛化性较差 [ 43 ]。类似地，人们观察到，由于过参数化 [ 51 ]，微调模型会导致显著的错误校准。

因此，当稳健性和校准是至关重要的考虑因素时，微调模型可能不是最佳选择。然而，人类对齐已经被发现是增强模型鲁棒性的潜在解决方案。InstructGPT davinci v2 (175B*) 已被证明在鲁棒性方面优于其他模型。另一方面，实现模型的最优校准取决于所采用的场景和适应过程。

公平与偏见。 LLMs 已被证明表现出不同的治疗和影响，延续了社会偏见，并可能导致歧视 [10、17]。为了保证所有用户的公平和公正，在 NLP 模型的开发和部署中解决这些问题是至关重要的。人口统计学群体之间的绩效差异可以作为公平问题的指标。LLMs 特别容易受到公平问题的影响，因为在方言、宗教、性别和种族等人口统计学类别中观察到了显著的绩效差异 [ 59 ]。然而，然而，研究表明，与人类指令对齐的模型可以提高 LLM 的性能，而与它们的大小无关，其中 InstructGPT 模型 (davinci v2) 表现出比其他 LLM 更小的性能差异 [ 23 ]。

虚假偏见。 在预训练和微调范式下的各种自然语言理解任务中都观察到了捷径学习问题，其中模型在预测 [31、35、98] 时严重依赖于微调数据中输入和标签之间的虚假相关性。例如，在阅读理解任务中，微调模型往往关注问题与原文之间单词的词汇匹配，忽略了预期的阅读理解任务本身 [ 53 ]。相比之下，大型语言模型并不直接在微调数据集上进行训练，这使得它们不太可能学习微调数据集中存在的捷径特征，从而增强模型的泛化能力。然而，LLMs 并非万无一失，在语境学习过程中可能表现出一些捷径学习。例如，最近的初步研究已经开始调查基于提示的方法在大规模语言模型 [ 111、129] 中的鲁棒性。其中一项研究评估了 GPT-3 在文本分类和信息提取任务上的少样本学习性能 [ 129 ]，发现被考察的 LLMs 容易受到多数标签偏差和位置偏差的影响，他们倾向于根据答案在训练数据中的频率或位置来预测答案。此外，这些 LLMs 表现出共同的标记偏向，倾向于在其预训练语料库中普遍存在的答案。最近的研究表明，这种位置偏差可以通过选择适当的提示来缓解 [ 68 ]。总之，虽然 LLMs 显著减少了微调模型中普遍存在的捷径学习问题，但它们仍然表现出一些捷径学习问题，在下游应用中部署时应该谨慎对待。

# 5.3 安全挑战

LLMs 在推理、知识保持和编码等多个领域展示了其极强的能力。随着它们变得更加强大和人性化，它们以重要方式影响人们的观点和行动的潜力也在增长。因此，在最近的工作 [75,76] 中，一些对我们社会的新的安全挑战应该被考虑并引起了广泛的关注。

幻觉。 LLMs 可能 "幻觉"，或产生无意义或不真实的内容，在各种应用中可能对信息的质量和可靠性产生重大负面影响。随着 LLMs 变得越来越有说服力和可信度，用户可能会过度依赖它们，并相信它们能够在他们所熟悉的领域提供准确的信息。如果模型产生的内容完全是错误的或误导性的，导致基于该信息做出不正确的决定或采取不正确的行动，这可能特别危险。这种结果可能在许多领域产生严重后果，如医疗保健、金融或公共政策，其中信息的准确性和可靠性至关重要。为了缓解这些问题，强化学习应运而生

有害内容。 由于 LLMs 生成的文本具有较高的连贯性、质量和可读性，LLMs 中的有害内容会造成重大危害，包括仇恨言论、歧视、煽动暴力、虚假叙述，甚至是社会工程学攻击。为检测和纠正这些内容而实施的保障措施是可以缓解的 [97]。这些 LLM 还可以通过提供所需的非法信息而具有双重用途潜力，导致武器扩散 [ 75 ] 甚至恐怖主义袭击计划等风险。关键是要确保负责任地使用这些 LLM，并制定保障措施以防止伤害。此外，在现有的工作中，来自人类的反馈在消除有害输出方面起着重要作用。

隐私性。 LLMs 可能面临严重的安全问题。例如，用户隐私问题。据报道，三星员工在无意中泄露了绝密数据，包括新程序的源代码、与硬件相关的内部会议纪要等，使用 ChatGPT 处理工作。意大利数据保护机构宣布 ChatGPT 的开发者 OpenAI 非法收集个人用户数据，导致意大利成为第一个因隐私问题而禁止 ChatGPT 的政府 [1]。

# 6. CONCLUSION AND FUTURE CHALLENGES 结论与未来挑战

近年来，随着大型语言模型的发展，自然语言处理领域发生了革命性的变化。有效地使用 LLMs 需要了解它们的能力，以及各种 NLP 任务的局限性。本文为 LLMs 在下游 NLP 任务中的应用提供了实践指导。我们首先讨论 GPT 式和 BERT 式架构等显著模型及其性能影响因素。然后，我们探讨了将 LLMs 用于下游任务，包括知识密集型任务、NLU 和 NLG 任务，并提供了成功和局限性的具体实例。该实践指南为 LLMs 提供了见解，并为在 NLP 任务中使用 LLMs 提供了最佳实践。我们希望它能使研究人员和实践者发挥他们的潜力，推动语言技术的创新。

接下来，我们对 LLMs 的未来挑战进行了展望：

・在真实世界的 "数据集" 上对提出的模型进行评估。而现有的深度学习模型主要在标准的学术数据集上进行评估，如 ImageNet，这些数据集已经成为深度学习发展的里程碑。然而，标准学术数据集的局限性并不能准确地反映真实世界的性能。随着模型的发展，在更多样、更复杂和更现实的数据上评估它们是至关重要的，这些数据反映了现实世界的需求。在真实世界的 "数据集" 上评估模型，除了学术上的模型外，还将对它们的能力进行更严格的测试，并更好地理解它们在真实世界应用中的有效性。这确保了模型能够解决现实世界的挑战并提供实际的解决方案。

・模型对齐。确保日益强大和自主的模式与人类的价值观和优先事项保持一致至关重要。必须制定方法，以确保这些模型按照预期的行为进行，并且不会对不理想的结果进行优化。从模型开发过程开始就集成对齐技术是至关重要的。模型的透明性和可解释性也是评估和确保一致性的重要因素。此外，当我们展望未来时，一个更加艰巨的挑战也随之而来：超人对齐系统 (aligning superhuman systems)。虽然这项任务目前超出了我们的需求，但重要的是要考虑和准备调整这种先进系统的潜在影响，因为它们可能会呈现独特的复杂性和伦理问题 [ 8、15 ]。

・安全对齐。虽然讨论人工智能存在的风险很重要，但需要进行具体的研究，以确保高级人工智能的安全发展。这包括可解释性、可扩展的监督和治理以及模型属性的形式化验证等技术。安全不应仅仅被视为模型建立过程中的一个附加部分，而应被视为模型建立过程中不可或缺的一部分。

・规模性能预测。很难预料随着模型规模和复杂度的急剧增加，模型性能会发生怎样的变化。在扩大规模或开发新的架构后，开发更好地预测模型性能的方法，将有助于更有效地利用资源和加快进展。一些可能性包括：训练一个较小的 "种子" 模型并外推其生长，模拟尺度增加或模型调整的影响，以及在不同尺度下对模型的迭代进行基准测试以构建缩放规律。这些可以在模型建立之前就能洞察模型的性能。