预训练大语言模型

内容摘要

本视频是"人人皆可用的生成式 AI"课程第二周第七讲，内容极为精炼，核心信息只有一个：预训练（Pre-training）是极其昂贵的，对绝大多数团队来说，几乎不应该考虑。吴恩达直接给出"如有疑问，可能不要做"的建议，并以 Bloomberg GPT 为唯一的合理例外案例，说明预训练只在两个条件同时满足时才有意义：拥有海量专业领域数据，且具备充足资源（数千万美元级别）。本讲也为下一讲"如何选择模型"做了铺垫。

核心观点

预训练是整个 LLM 技术栈中最昂贵的环节
预训练一个大型语言模型需要：数千万美元的计算成本、大型专职工程团队、数月时间、以及海量数据。这不是一个普通企业或团队能够承担的任务。
吴恩达的核心建议：如有疑问，不要做
他明确表示："when in doubt, I would say probably don't do it"——这是本课程中为数不多的"非黑即白"式明确建议之一，说明预训练对非大型科技公司来说几乎是不现实的选项。
开源预训练模型是对 AI 社区的巨大贡献
许多团队（包括大型科技公司和研究机构）已经将预训练好的模型开源，这极大降低了整个行业的进入门槛。正是这些开源模型，让微调成为可行且经济的替代路径。
例外：Bloomberg GPT——专有领域数据 + 充足资源
Bloomberg 因其在金融领域拥有海量私有文本数据，专门训练了 BloombergGPT，使其在处理金融文本方面显著优于通用 LLM。这个案例展示了"什么时候预训练有意义"——当你同时满足"高度专业化领域"和"大量领域数据"这两个条件时。
对大多数应用的推荐路径：开源预训练模型 + 微调
对于绝大多数实际应用，更经济、更可行的路径是：直接使用别人已经预训练好（并开源）的通用 LLM，然后在自己的数据上进行微调，以获取足够好的性能——而不是从零开始预训练。

关键收获

💡 收获 1："如有疑问，不要做"——这是吴恩达对预训练最清晰的态度
在一门倡导"人人都能用 AI"的课程中，吴恩达罕见地给出了如此直白的负向建议。这背后的逻辑是：预训练的成本和复杂度远超大多数企业的承受能力，而开源模型 + 微调已经能够解决绝大多数问题。

💡 收获 2：开源预训练模型是"站在巨人肩膀上"的核心基础设施
正是因为有 LLaMA、Mistral、Falcon 等开源模型，企业才得以用微调而非预训练来构建专业 AI 应用。吴恩达特别表达了对这些贡献者的真诚感谢，这也传递了一个信号：开源生态是整个 GenAI 民主化的关键推动力。

💡 收获 3：Bloomberg GPT 案例揭示了"什么时候预训练值得"的双重条件
条件一：高度专业化的领域（金融、医疗、法律等），通用 LLM 明显不够用。条件二：拥有海量该领域的私有数据（Bloomberg 积累了大量金融文本）。两个条件缺一不可。如果只满足其中一个，微调通常已经足够。

💡 收获 4：RAG → 微调 → 预训练，是成本与复杂度的递进阶梯
本讲完成了对这三种技术路径的全面梳理，构成了一个从"免费"到"极昂贵"的完整决策光谱。对大多数企业，实践建议是：从提示词开始，不够则 RAG，仍不够则微调，几乎永远不需要考虑预训练。

重要引述

"This turns out to be so expensive that when in doubt, I would say probably don't do it."
（这实在是太昂贵了，所以如有疑问，我会说可能不要做。）

"For many practical applications, unless you have a huge amount of resources and a huge amount of data, it may be more practical to start with an LLM that someone else has pre-trained... and then to fine-tune that to your own data."
（对于许多实际应用，除非你拥有大量资源和大量数据，否则更实际的做法是从别人已经预训练好的 LLM 开始……然后在你自己的数据上对其进行微调。）

"I am sincerely very grateful to the teams that have been putting a lot of resources into pre-training LLMs on a lot of text data on the internet and then open-sourcing them."
（我由衷地感谢那些投入大量资源，在大量互联网文本数据上预训练 LLM，然后将其开源的团队。）

总体结论

本讲是第二周技术三件套（RAG→微调→预训练）的收官之作，以简短有力的方式传递了最明确的信息：预训练是 AI 技术栈中的"最后手段"，对绝大多数团队来说不应考虑。Bloomberg GPT 作为唯一合理例外的出现，恰恰划定了预训练有意义的高门槛。本讲同时对开源社区的贡献表达了真诚致谢，并为下一讲"如何在众多 LLM 中做选择"做好了铺垫——正是因为有大量开源模型可供选择，"选择模型"才成为了一个需要学习的决策问题。

逐字稿（中文翻译）

我们一直在使用的许多 LLM，都是由某些公司——通常是大型科技公司——事先训练好的，也就是我们所说的"预训练"。那么，你什么时候应该自己预训练一个模型呢？

事实证明，这实在是太昂贵了，所以如有疑问，我会说可能不要做。但让我们来深入了解一下。

许多团队一直在通过学习互联网上的文本来预训练通用 LLM。这些训练超大型语言模型的工作可能耗资数千万美元，需要一支庞大的专职工程团队，历时数月，并需要海量数据。许多团队已经将这类模型开源，这对 AI 社区来说是一个了不起的贡献。如果你有资源来预训练模型，甚至将其开源，请务必做出这一贡献——我认为这将非常棒。

但对于构建特定应用而言，考虑到从头预训练一个模型所需的时间和费用，我通常把这视为"最后手段"。如果你有一个高度专业化的领域，并且拥有大量该领域的数据，这种情况下预训练可能会有所帮助。例如，Bloomberg 是一家以金融服务为核心提供软件和媒体文章的公司。凭借其对大量金融领域文本数据的访问权限，它训练了 BloombergGPT——这是 Bloomberg 专门为金融应用而定制构建的大型语言模型。Bloomberg 报告称，与主要从互联网数据中学习的通用 LLM 相比，这个模型在处理金融文本方面表现出色得多。

对于许多实际应用来说，除非你拥有大量资源和大量数据，否则更实际的做法是：从别人已经预训练好的 LLM 开始——比如一个从大量互联网数据中学习、并且有人已经开源的通用 LLM——然后在你自己的数据上对其进行微调。这通常会给出相当不错的性能，同时也经济得多。

我由衷地感谢那些投入大量资源，在大量互联网文本数据上预训练 LLM，然后将其开源的团队。实际上，这给了我们许多不同的 LLM 可供选择和使用。在下一个视频中，我们实际上会来看看这样一个问题：你想用什么规模的 LLM？在所有这些不同的 LLM 中，你应该如何考虑在它们之间做出选择？让我们在下一个视频中来看看这个问题。

本文档根据视频字幕整理翻译，内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第七讲。

中文配音 · 可下载

预训练大语言模型

下载 MP3

预训练大语言模型

内容摘要

核心观点

关键收获

重要引述

总体结论

逐字稿（中文翻译）

生成式 AI 简介

生成式 AI 如何工作

LLM：你的思维伙伴