图像生成

内容摘要

本视频是"人人皆可用的生成式 AI"课程第一周第十讲，也是第一周唯一一个可选视频。吴恩达将视角从文字生成转向图像生成，深入浅出地解释了当前图像生成的核心技术——**扩散模型（Diffusion Model）**的工作原理：通过监督学习，让模型学会将"纯噪声"逐步还原为清晰图像。视频还介绍了如何通过文字提示词（Prompt）控制生成内容，并指出扩散模型的核心机制仍然是监督学习——再次强调了这一贯穿全课程的技术底座。

核心观点

图像生成是生成式 AI 的第二大支柱，多模态模型正在兴起
本周课程主要聚焦文字生成，但图像生成同样是生成式 AI 的重要组成部分。目前已有能同时生成文字和图像的多模态模型（Multimodal Models），预示着未来模态融合的方向。
扩散模型（Diffusion Model）是当前图像生成的主流技术
扩散模型从海量互联网图片中学习。其核心思路分两步：正向扩散——对原始图像逐步添加随机噪声，直到变成纯噪声；反向扩散（去噪）——训练一个监督学习模型，学会将噪声图像还原为清晰图像。
扩散模型的本质是监督学习
训练数据格式：输入 A = 含噪声的图像，输出 B = 去噪后的图像。每张训练图片通过多次加噪，产生大量"(输入,输出)"数据对，供监督学习模型训练。这与文字生成 LLM 的底层逻辑一脉相承。
文字提示词实现了对生成图像的精准控制
通过在训练数据中为图像配上文字描述（如"红苹果"），修改后的扩散模型学会了在去噪时同时接受文字提示作为输入。推理时，从纯噪声出发，同时输入目标描述（如"绿色香蕉"），经过约 100 步迭代去噪，即可生成对应图像。
去噪步骤在实践中约为 100 步，而非演示中的 4 步
视频为简化说明仅展示了 4 步加噪和 4 步去噪。实际扩散模型通常需要约 100 步去噪迭代才能生成高质量图像。

关键收获

💡 收获 1：扩散模型"从噪声中还原图像"的思路极其反直觉但非常有效
大多数人想象的图像生成是"从零开始画图"，但扩散模型的思路是"从随机噪声出发，一步步去掉噪声，直到图像出现"。这种迂回路径之所以成功，是因为"去噪"比"从头画图"更容易被监督学习建模。

💡 收获 2：文字+图像联合训练是 Stable Diffusion/DALL-E 能"听懂文字"的关键
仅有去噪能力只能生成随机图像。在训练数据中加入文字描述，模型才能学会"语义→像素"的映射，从而响应"一只宇航员骑马"这样的提示词生成对应图像。

💡 收获 3：图像生成的底层依然是监督学习，而非什么玄学
吴恩达特别强调："在这个看似神奇的图像生成过程的核心，依然是监督学习。"这一反复强调提醒我们：生成式 AI 的能力来自于大规模监督学习，而不是某种难以理解的黑魔法。

💡 收获 4：多模态是未来方向，但本课重点仍是文字
能同时处理文字和图像的多模态模型正在快速发展，但本课程将主要聚焦于文字模态，因为它目前影响最广、应用最成熟。

💡 收获 5：扩散模型每次生成结果略有不同，具有创造性随机性
从纯噪声出发意味着每次生成的起点都不同，因此即使给定完全相同的提示词，每次生成的图像也会有所差异——这正是图像生成工具"每次生成都有惊喜"的技术原因。

重要引述

"At the heart of a diffusion model is supervised learning."
（扩散模型的核心是监督学习。）

"With just a prompt, you can use generative AI to generate a beautiful picture of a person that never existed, or a picture of a futuristic scene, or a picture of a cool robot."
（只需一个提示词，你就可以用生成式 AI 生成一张从未存在过的人的美丽图片，或者一个未来场景的图片，或者一个酷炫机器人的图片。）

"At the heart of this really magical process of generating beautiful images is again supervised learning."
（在这个看似神奇的美丽图像生成过程的核心，依然是监督学习。）

总体结论

本讲以"可选"之名，呈现了生成式 AI 中最具视觉冲击力的技术——图像生成。吴恩达通过苹果加噪/去噪→绿色香蕉生成这两个演示，将扩散模型这一复杂技术降解为"给图片加噪、再学会去噪"的直观过程，并再一次将其归结为监督学习的应用。这一讲最重要的价值不在于技术细节，而在于认知升级：图像生成不是艺术魔法，而是大规模监督学习的工程产物，这与 LLM 文字生成遵循同一套底层逻辑。理解这一点，有助于学习者对整个生成式 AI 的能力版图形成更完整、更清醒的认识。

逐字稿（中文翻译）

感谢你坚持陪我走完这最后一个关于图像生成的可选视频。本周到目前为止，我们把大部分注意力放在了文字生成上——文字生成是很多用户正在使用的功能，也是所有生成式 AI 工具中影响最广的。但生成式 AI 令人兴奋的地方还包括图像生成，而且也开始出现一些能同时生成文字或图像的模型，这些有时被称为"多模态模型"，因为它可以在多种模态（文字或图像）下运行。我想在这个视频中和你分享图像生成是如何工作的。

只需一个提示词，你就可以用生成式 AI 生成一张美丽的、从未在现实中存在过的人物图片，或者一个充满未来感的场景图片，或者一个酷炫机器人的图片。这项技术是如何实现的呢？

今天的图像生成主要是通过一种叫做"扩散模型"（Diffusion Model）的方法来实现的。 扩散模型从互联网或其他来源的海量图像中学习，而扩散模型的核心，其实是监督学习。以下是它的工作方式：假设算法在互联网上找到了一张苹果的图片，它希望从这张图片以及其他数以亿计的图片中学习如何生成图像。

第一步，是对这张图片逐步添加越来越多的噪声：从这张清晰的苹果图片出发，变成稍微模糊的版本，再变成更模糊的版本，最终变成一张看起来完全是纯噪声的图片——所有像素都是随机选取的，完全看不出苹果的样子。扩散模型然后以这些图片作为数据，用监督学习来训练：输入一张含噪声的图像，输出一张稍微清晰一点的图像。

具体来说，训练数据集会这样构建：第一个数据点是——如果输入是第二张稍微有噪声的图片，我们希望监督学习算法输出一张更干净的苹果图片；另一个数据点是——给定第三张更有噪声的图片，我们希望算法输出一张稍微清晰一点的版本；最后，给定一张纯噪声图片，我们希望它能输出一张稍微能看出苹果轮廓的图片。

在对数以亿计的图像完成这样的训练之后，当你想要用它来生成一张新图片时，操作方式如下：先生成一张纯噪声图片——每一个像素都完全随机选取——然后把这张图片输入到我们训练好的监督学习模型中。模型会从这张纯噪声图片中去除一点点噪声，你可能会得到一张模糊地暗示着中间有某种水果的图片，但还看不清楚是什么。把第二张图片再次输入模型，它又去除了一点点噪声，现在看起来像是一张模糊的西瓜图片。再应用一次，最终得到一张非常漂亮的西瓜图片。

我在演示中用了四步加噪（在上一张幻灯片）和四步去噪（在这张幻灯片），但在实际的扩散模型中，大约 100 步会更为典型。

所以这个算法可以完全随机地生成图片，但我们希望能通过指定提示词来控制它生成什么。让我描述一下这个算法的一个改进版本，让你可以加入文字描述或提示词来告诉它你想生成什么。

在训练数据中，除了苹果这样的图片，我们还会加入一段描述或提示词——比如"这是一个红苹果"。然后我们同样对这张图片逐步加噪，直到得到纯噪声的第四张图片。但我们改变了学习算法的构建方式：不再只是输入稍微有噪声的图片并期望输出一张干净的图片，而是把输入 A 改为"有噪声的图片"加上"能生成这张图片的文字描述，即'红苹果'"，然后我们希望算法根据这个输入输出一张干净的苹果图片。类似地，我们会用其他有噪声的图片生成更多数据点：每次给定有噪声的图片和文字提示"红苹果"，我们希望算法学会生成一张更清晰的红苹果图片。

这样在非常大的数据集上完成训练之后，当你想用它来生成"绿色香蕉"时，操作方式如下：同样从纯噪声图片开始——每个像素完全随机——然后把这张纯噪声图片连同提示词"绿色香蕉"一起输入到监督学习算法中。既然它知道你想要绿色香蕉，算法（希望）会输出一张隐约暗示中间有某种绿色水果的图片——这是图像生成的第一步。

接下来，我们把这张右侧输出的图片作为输入 A，再次连同提示词"绿色香蕉"一起输入，让它生成一张噪声更少的图片——现在已经能清楚看出这是一根有噪声的绿色香蕉了。再做一次，它最终去除了大部分噪声，我们得到了一张相当漂亮的绿色香蕉图片。

这就是扩散模型生成图像的工作方式——而在这个看似神奇的生成精美图像的过程核心，依然是监督学习。感谢你陪我完成这个可选视频，期待下周再见。下周我们将更深入地探讨使用生成式 AI 构建的各种应用，期待和你一起探索。下个视频见。

本文档根据视频字幕整理翻译，内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第十讲（可选视频）。

中文配音 · 可下载

图像生成

下载 MP3