元启 · AI Research
/

预训练大语言模型

Pretraining an LLM

本视频是"人人皆可用的生成式 AI"课程第二周第七讲,内容极为精炼,核心信息只有一个:**预训练(Pre-training)是极其昂贵的,对绝大多数团队来说,几乎不应该考虑**

YQ元启
·2026 年 5 月 12 日·6 分钟·studies·#generative-ai #andrew-ng #deeplearning-ai #week2

内容摘要

本视频是"人人皆可用的生成式 AI"课程第二周第七讲,内容极为精炼,核心信息只有一个:预训练(Pre-training)是极其昂贵的,对绝大多数团队来说,几乎不应该考虑。吴恩达直接给出"如有疑问,可能不要做"的建议,并以 Bloomberg GPT 为唯一的合理例外案例,说明预训练只在两个条件同时满足时才有意义:拥有海量专业领域数据,且具备充足资源(数千万美元级别)。本讲也为下一讲"如何选择模型"做了铺垫。


核心观点

  1. 预训练是整个 LLM 技术栈中最昂贵的环节
    预训练一个大型语言模型需要:数千万美元的计算成本、大型专职工程团队、数月时间、以及海量数据。这不是一个普通企业或团队能够承担的任务。

  2. 吴恩达的核心建议:如有疑问,不要做
    他明确表示:"when in doubt, I would say probably don't do it"——这是本课程中为数不多的"非黑即白"式明确建议之一,说明预训练对非大型科技公司来说几乎是不现实的选项。

  3. 开源预训练模型是对 AI 社区的巨大贡献
    许多团队(包括大型科技公司和研究机构)已经将预训练好的模型开源,这极大降低了整个行业的进入门槛。正是这些开源模型,让微调成为可行且经济的替代路径。

  4. 例外:Bloomberg GPT——专有领域数据 + 充足资源
    Bloomberg 因其在金融领域拥有海量私有文本数据,专门训练了 BloombergGPT,使其在处理金融文本方面显著优于通用 LLM。这个案例展示了"什么时候预训练有意义"——当你同时满足"高度专业化领域"和"大量领域数据"这两个条件时。

  5. 对大多数应用的推荐路径:开源预训练模型 + 微调
    对于绝大多数实际应用,更经济、更可行的路径是:直接使用别人已经预训练好(并开源)的通用 LLM,然后在自己的数据上进行微调,以获取足够好的性能——而不是从零开始预训练。


关键收获

💡 收获 1:"如有疑问,不要做"——这是吴恩达对预训练最清晰的态度
在一门倡导"人人都能用 AI"的课程中,吴恩达罕见地给出了如此直白的负向建议。这背后的逻辑是:预训练的成本和复杂度远超大多数企业的承受能力,而开源模型 + 微调已经能够解决绝大多数问题。

💡 收获 2:开源预训练模型是"站在巨人肩膀上"的核心基础设施
正是因为有 LLaMA、Mistral、Falcon 等开源模型,企业才得以用微调而非预训练来构建专业 AI 应用。吴恩达特别表达了对这些贡献者的真诚感谢,这也传递了一个信号:开源生态是整个 GenAI 民主化的关键推动力。

💡 收获 3:Bloomberg GPT 案例揭示了"什么时候预训练值得"的双重条件
条件一:高度专业化的领域(金融、医疗、法律等),通用 LLM 明显不够用。条件二:拥有海量该领域的私有数据(Bloomberg 积累了大量金融文本)。两个条件缺一不可。如果只满足其中一个,微调通常已经足够。

💡 收获 4:RAG → 微调 → 预训练,是成本与复杂度的递进阶梯
本讲完成了对这三种技术路径的全面梳理,构成了一个从"免费"到"极昂贵"的完整决策光谱。对大多数企业,实践建议是:从提示词开始,不够则 RAG,仍不够则微调,几乎永远不需要考虑预训练。


重要引述

"This turns out to be so expensive that when in doubt, I would say probably don't do it."
(这实在是太昂贵了,所以如有疑问,我会说可能不要做。)

"For many practical applications, unless you have a huge amount of resources and a huge amount of data, it may be more practical to start with an LLM that someone else has pre-trained... and then to fine-tune that to your own data."
(对于许多实际应用,除非你拥有大量资源和大量数据,否则更实际的做法是从别人已经预训练好的 LLM 开始……然后在你自己的数据上对其进行微调。)

"I am sincerely very grateful to the teams that have been putting a lot of resources into pre-training LLMs on a lot of text data on the internet and then open-sourcing them."
(我由衷地感谢那些投入大量资源,在大量互联网文本数据上预训练 LLM,然后将其开源的团队。)


总体结论

本讲是第二周技术三件套(RAG→微调→预训练)的收官之作,以简短有力的方式传递了最明确的信息:预训练是 AI 技术栈中的"最后手段",对绝大多数团队来说不应考虑。Bloomberg GPT 作为唯一合理例外的出现,恰恰划定了预训练有意义的高门槛。本讲同时对开源社区的贡献表达了真诚致谢,并为下一讲"如何在众多 LLM 中做选择"做好了铺垫——正是因为有大量开源模型可供选择,"选择模型"才成为了一个需要学习的决策问题。


逐字稿(中文翻译)

我们一直在使用的许多 LLM,都是由某些公司——通常是大型科技公司——事先训练好的,也就是我们所说的"预训练"。那么,你什么时候应该自己预训练一个模型呢?

事实证明,这实在是太昂贵了,所以如有疑问,我会说可能不要做。但让我们来深入了解一下。

许多团队一直在通过学习互联网上的文本来预训练通用 LLM。这些训练超大型语言模型的工作可能耗资数千万美元,需要一支庞大的专职工程团队,历时数月,并需要海量数据。许多团队已经将这类模型开源,这对 AI 社区来说是一个了不起的贡献。如果你有资源来预训练模型,甚至将其开源,请务必做出这一贡献——我认为这将非常棒。

但对于构建特定应用而言,考虑到从头预训练一个模型所需的时间和费用,我通常把这视为"最后手段"。如果你有一个高度专业化的领域,并且拥有大量该领域的数据,这种情况下预训练可能会有所帮助。例如,Bloomberg 是一家以金融服务为核心提供软件和媒体文章的公司。凭借其对大量金融领域文本数据的访问权限,它训练了 BloombergGPT——这是 Bloomberg 专门为金融应用而定制构建的大型语言模型。Bloomberg 报告称,与主要从互联网数据中学习的通用 LLM 相比,这个模型在处理金融文本方面表现出色得多。

对于许多实际应用来说,除非你拥有大量资源和大量数据,否则更实际的做法是:从别人已经预训练好的 LLM 开始——比如一个从大量互联网数据中学习、并且有人已经开源的通用 LLM——然后在你自己的数据上对其进行微调。这通常会给出相当不错的性能,同时也经济得多。

我由衷地感谢那些投入大量资源,在大量互联网文本数据上预训练 LLM,然后将其开源的团队。实际上,这给了我们许多不同的 LLM 可供选择和使用。在下一个视频中,我们实际上会来看看这样一个问题:你想用什么规模的 LLM?在所有这些不同的 LLM 中,你应该如何考虑在它们之间做出选择?让我们在下一个视频中来看看这个问题。


本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第七讲。

中文配音 · 可下载

预训练大语言模型

下载 MP3
想直接聊聊这篇?扫码加我 →

相关阅读