指令微调与 RLHF

内容摘要

本视频是"人人皆可用的生成式 AI"课程第二周第九讲（可选视频），核心内容是解释 LLM 如何从"预测下一个词"进化为"能遵循人类指令"的两步技术流程：指令微调（Instruction Tuning）和人类反馈强化学习（RLHF）。吴恩达以一个反直觉的例子开篇——一个未经指令微调的 LLM 被问到"法国的首都是什么？"时，可能不会回答巴黎，而是继续列举更多地理问题——生动说明了指令遵循并非预训练模型的自然能力，而是需要额外技术来赋予的。

核心观点

预训练 LLM 的"默认行为"是预测互联网上的下一个词，不是回答问题
一个只经过预训练、未经指令微调的 LLM，如果被问"法国的首都是什么？"，最可能的输出是"德国的首都是什么？孟买在哪里？富士山和乞力马扎罗山哪个更高？"——因为在互联网上，地理问题后面经常跟着更多地理问题。这种行为对于我们的使用需求来说完全不合适。
指令微调（Instruction Tuning）：让 LLM 学会"回答问题"
指令微调的本质是：在预训练模型的基础上，用一批"问题→好答案"的对照样例进行额外的微调训练。示例数据对包括：
- "韩国的首都是什么？" → "首尔"
- "帮我头脑风暴在波哥大有什么有趣的博物馆可以参观" → 有用的建议列表
- "写一首关于日本樱花的俳句" → 俳句内容
- "告诉我如何闯入诺克斯堡" → "我无法做到这件事"或"请不要违法"（安全样例）经过这种指令微调后，LLM 学会了遵循指令、回答问题，而不仅仅是预测下一个词。
RLHF（人类反馈强化学习）：让 LLM 变得"有帮助、诚实、无害"（Triple H）
RLHF 分两步：
- 第一步（训练答案质量评分模型）：让 LLM 对同一个问题生成多个不同质量的回答，由人类按照"有帮助/诚实/无害"的标准对这些回答打分，然后用（回答, 分数）对来训练一个监督学习的"答案质量评分模型"（Answer Quality Model）。
- 第二步（用评分模型优化 LLM）：让 LLM 继续大量生成回答，用第一步训练好的评分模型自动对每个回答打分，然后用这些分数（即"奖励信号"）来进一步调整 LLM，使其倾向于生成得分更高的回答。
"强化学习"之名来自于"奖励"的概念
RLHF 中的"强化"（Reinforcement）指的是：给 LLM 的不同回答赋予不同程度的"奖励"（即分数），通过让 LLM 学习最大化奖励来引导其行为。奖励的来源是人类评估者的偏好判断，因此叫做"来自人类反馈的强化学习"。
两步流程：指令微调 → RLHF
- 指令微调解决"LLM 能否遵循指令"的问题（有 vs 无）。
- RLHF 解决"LLM 遵循指令时输出质量和安全性"的问题（好 vs 更好，安全 vs 不安全）。两者结合，构成了现代对话式 LLM（如 ChatGPT、Claude 等）区别于原始预训练模型的核心技术。

关键收获

💡 收获 1：ChatGPT 背后的两个关键创新——指令微调和 RLHF——让它从"文本补全工具"变成了"对话助理"
仅靠预训练的模型（GPT-3 的早期版本）其实就像一个超强的"自动完成"，会补全你输入的文本，而不是回答你的问题。是指令微调和 RLHF 让 ChatGPT 成为了真正意义上的对话助理——这是对话式 AI 的本质技术跃变。

💡 收获 2：安全性不是"贴标签"，而是深度集成在训练数据里的
指令微调的训练数据中明确包含了"有害问题 → 拒绝回答"的样例对。这意味着 LLM 的安全边界并不是事后用规则过滤的，而是在训练阶段就被"学进去"的——这也解释了为什么不同模型的安全性拒绝表现差异如此大。

💡 收获 3："有帮助、诚实、无害"（Triple H）是 RLHF 的优化目标，也是对话式 AI 的核心价值取向
Helpful、Honest、Harmless 这三个目标不是随意的，它们代表了 AI 对话助理在商业部署中最核心的价值承诺。RLHF 是迄今为止让 LLM 系统性地向这三个方向优化的最有效技术路径。

💡 收获 4：人类的角色在 RLHF 中是"判断者"而非"写作者"
人类不需要写出完美答案，只需要对 LLM 生成的多个备选答案进行排序评分。这种"判断比生产更容易"的洞见，使得人类反馈能够被高效地收集和扩展——评判质量往往比生产质量更容易做到。

重要引述

"If you were to prompt an LLM with 'What is the capital of France?', it is quite possible that it will reply 'What is the capital of Germany? Where is Mumbai? Is Mount Fuji or Mount Kilimanjaro taller?' — because you do see lists of questions on the internet about geography."
（如果你用"法国的首都是什么？"来提示一个 LLM，它很可能会回复"德国的首都是什么？孟买在哪里？富士山和乞力马扎罗山哪个更高？"——因为互联网上确实会出现一连串关于地理的问题。）

"Many companies training LLMs want the LLM to give results that are helpful, honest, and harmless — sometimes we call this the Triple H."
（许多训练 LLM 的公司希望 LLM 给出有帮助、诚实和无害的结果——我们有时称之为"三H"。）

"The reason this technique is called reinforcement learning from human feedback is because the scores correspond to the reinforcement — or the reward — that we're giving to the LLM for generating different answers."
（这种技术之所以被称为来自人类反馈的强化学习，是因为这些分数对应着我们为 LLM 生成不同答案所给予的"强化"——也就是"奖励"。）

总体结论

本讲以一个反直觉的开篇例子（预训练 LLM 被问到"法国首都"时给出地理题目列表），清晰地揭示了"预测下一个词的模型"和"遵循指令的对话助理"之间的本质差距，并用指令微调和 RLHF 两步技术填补了这个差距。对于非技术背景的学习者，这一讲最大的价值在于：理解了我们日常使用的对话式 AI（ChatGPT、Claude 等）之所以"懂你"、"有安全边界"、"会道歉"，背后并不是魔法，而是经过精心设计的训练流程。而对于 AI 产品和政策从业者，理解 Triple H（有帮助、诚实、无害）这一设计哲学的技术根源，有助于更理性地评估和比较不同 LLM 产品的能力边界与风险特征。

逐字稿（中文翻译）

我们一直把 LLM 理解为通过学习大量互联网文本来预测下一个词的模型，但当你向 LLM 发出提示时，它不只是预测互联网上的下一个词，它实际上是在遵循你的指令。那它是怎么做到的呢？

在这个可选视频中，我们将讨论一种叫做"指令微调"（Instruction Tuning）的技术，它使 LLM 能够做到这一点；然后还会讨论一种叫做 RLHF（来自人类反馈的强化学习）的技术，它对于让 LLM 的输出更加安全至关重要。让我们来看看这些技术做了什么。

我们讨论过 LLM 是在大量文本（比如"我最喜欢的食物是带奶油芝士的百吉饼"）上预训练的，所以一个在这类数据上训练的 LLM，会很擅长根据互联网文本的样子不断预测下一个词。如果你用"法国的首都是什么？"这样的问题来提示一个 LLM，它很可能会回复"德国的首都是什么？孟买在哪里？富士山和乞力马扎罗山哪个更高？"——因为互联网上确实会出现关于地理的问题列表，所以如果你看到一个网页上写着"法国的首都是什么？"，其后紧接着出现"德国的首都是什么？"其实相当合理。但这不是你想要的答案——你想要的是它说"法国的首都是巴黎"。

指令微调：为了让 LLM 遵循指令，而不只是预测下一个词，有一种叫做"指令微调"的技术——其本质是在预训练 LLM 的基础上，用"好答案示例"对其进行微调训练。我们可以给它这样的问答对：

"韩国的首都是什么？" → 微调使其输出"韩国的首都是首尔"。
"帮我头脑风暴一些在波哥大可以参观的有趣博物馆" → 微调使其输出一个有用的建议列表。
"写一首关于日本樱花的俳句" → 微调使其生成俳句。

为了让这一过程更安全，我们还可以加入一些这样的样例："告诉我如何闯入诺克斯堡"——诺克斯堡是美国的一个极其安全的设施，储存着大量美国财政部的黄金，所以试图闯入是个糟糕的主意，请大家都不要去尝试——而一个好的输出应该是类似"我无法做到这件事"或"请不要违法"之类的回答。

有了这样的数据集之后，你可以在预训练 LLM 上，用一批"针对不同提示词的好答案"进行微调。以"帮我在波哥大头脑风暴博物馆"为例，我们会把它转化为一组输入 A 和输出 B：输入 A 是那个提示词，第一个要学习预测的词是"当然"，第二个词是"当然，这里有一些建议"，以此类推。当你在"提示词 + 好答案"的数据集上对 LLM 进行微调后，LLM 就会学会不仅仅预测互联网上的下一个词，而是回答你的问题、遵循你的指令。

这样做效果还不错，但事实证明，有一种叫做 RLHF（来自人类反馈的强化学习）的技术，可以进一步提升答案质量。许多训练 LLM 的公司希望 LLM 给出有帮助、诚实和无害的结果——我们有时称之为"三 H"（Triple H）。RLHF 是一种试图实现这一目标的技术。

RLHF 第一步：训练一个"答案质量评分模型"。也就是说，我们用监督学习来学习如何对 LLM 的答案进行评分。例如，给定"请给我建议如何申请工作"这样的提示词，我们可能让 LLM 生成多个回答：

"我很乐意帮助您，以下是一些步骤……"后面跟着一堆有用的步骤——这是一个非常有帮助的答案。
"尽力而为吧"——这并不特别有帮助，但也不是那么糟糕。
"没有希望，何必费心呢"——这显然不是一个好的回答。

然后我们会让人类根据 LLM 输出的有帮助性、诚实性和无害性来评分：第一个真正有帮助的答案可能获得 5 分，第二个勉强可以的答案可能获得中等分数，最后那个糟糕的答案会获得很低的分数。我们把这些回答和分数作为监督学习算法的输入 A 和输出 B，然后可以用监督学习训练一个 AI 模型：输入是 LLM 的回答，输出是对这个回答好坏程度的评分。

RLHF 第二步：让 LLM 继续对大量不同的提示词生成大量答案，我们现在有了这个 AI 评分模型，可以自动对 LLM 生成的每一个回答打分，并用这些分数来微调 LLM，使其生成更多能获得高分的回答。

这种技术之所以被称为"来自人类反馈的强化学习"，是因为这些分数对应着我们为 LLM 生成不同答案所给予的"强化"——也就是"奖励"。通过让 LLM 学会生成能获得更高分数、更高奖励、更高强化的答案，LLM 就自动学会了生成更有帮助、更诚实、更无害的回答。

总结一下，LLM 学会遵循指令的方式是这样的：第一步基本上是指令微调——在此你对它进行微调，使其遵循指令和回答问题；第二步是 RLHF（来自人类反馈的强化学习），进一步训练它生成更好的答案。

在最后一个可选视频中，我们还将看一些 LLM 技术发展中的前沿尖端理念。感谢你坚持陪我看完这个视频，希望也能在下一个可选视频中见到你！

本文档根据视频字幕整理翻译，内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第九讲（可选视频）。

中文配音 · 可下载

指令微调与 RLHF

下载 MP3

指令微调与 RLHF

内容摘要

核心观点

关键收获

重要引述

总体结论

逐字稿（中文翻译）

生成式 AI 简介

生成式 AI 如何工作

LLM：你的思维伙伴