元启 · AI Research
/

图像生成

Generative AI Application — Image Generation

本视频是"人人皆可用的生成式 AI"课程第一周第十讲,也是第一周唯一一个可选视频

YQ元启
·2026 年 5 月 12 日·7 分钟·studies·#generative-ai #andrew-ng #deeplearning-ai #week1 #image-generation

内容摘要

本视频是"人人皆可用的生成式 AI"课程第一周第十讲,也是第一周唯一一个可选视频。吴恩达将视角从文字生成转向图像生成,深入浅出地解释了当前图像生成的核心技术——**扩散模型(Diffusion Model)**的工作原理:通过监督学习,让模型学会将"纯噪声"逐步还原为清晰图像。视频还介绍了如何通过文字提示词(Prompt)控制生成内容,并指出扩散模型的核心机制仍然是监督学习——再次强调了这一贯穿全课程的技术底座。


核心观点

  1. 图像生成是生成式 AI 的第二大支柱,多模态模型正在兴起
    本周课程主要聚焦文字生成,但图像生成同样是生成式 AI 的重要组成部分。目前已有能同时生成文字和图像的多模态模型(Multimodal Models),预示着未来模态融合的方向。

  2. 扩散模型(Diffusion Model)是当前图像生成的主流技术
    扩散模型从海量互联网图片中学习。其核心思路分两步:正向扩散——对原始图像逐步添加随机噪声,直到变成纯噪声;反向扩散(去噪)——训练一个监督学习模型,学会将噪声图像还原为清晰图像。

  3. 扩散模型的本质是监督学习
    训练数据格式:输入 A = 含噪声的图像,输出 B = 去噪后的图像。每张训练图片通过多次加噪,产生大量"(输入,输出)"数据对,供监督学习模型训练。这与文字生成 LLM 的底层逻辑一脉相承。

  4. 文字提示词实现了对生成图像的精准控制
    通过在训练数据中为图像配上文字描述(如"红苹果"),修改后的扩散模型学会了在去噪时同时接受文字提示作为输入。推理时,从纯噪声出发,同时输入目标描述(如"绿色香蕉"),经过约 100 步迭代去噪,即可生成对应图像。

  5. 去噪步骤在实践中约为 100 步,而非演示中的 4 步
    视频为简化说明仅展示了 4 步加噪和 4 步去噪。实际扩散模型通常需要约 100 步去噪迭代才能生成高质量图像。


关键收获

💡 收获 1:扩散模型"从噪声中还原图像"的思路极其反直觉但非常有效
大多数人想象的图像生成是"从零开始画图",但扩散模型的思路是"从随机噪声出发,一步步去掉噪声,直到图像出现"。这种迂回路径之所以成功,是因为"去噪"比"从头画图"更容易被监督学习建模。

💡 收获 2:文字+图像联合训练是 Stable Diffusion/DALL-E 能"听懂文字"的关键
仅有去噪能力只能生成随机图像。在训练数据中加入文字描述,模型才能学会"语义→像素"的映射,从而响应"一只宇航员骑马"这样的提示词生成对应图像。

💡 收获 3:图像生成的底层依然是监督学习,而非什么玄学
吴恩达特别强调:"在这个看似神奇的图像生成过程的核心,依然是监督学习。"这一反复强调提醒我们:生成式 AI 的能力来自于大规模监督学习,而不是某种难以理解的黑魔法。

💡 收获 4:多模态是未来方向,但本课重点仍是文字
能同时处理文字和图像的多模态模型正在快速发展,但本课程将主要聚焦于文字模态,因为它目前影响最广、应用最成熟。

💡 收获 5:扩散模型每次生成结果略有不同,具有创造性随机性
从纯噪声出发意味着每次生成的起点都不同,因此即使给定完全相同的提示词,每次生成的图像也会有所差异——这正是图像生成工具"每次生成都有惊喜"的技术原因。


重要引述

"At the heart of a diffusion model is supervised learning."
(扩散模型的核心是监督学习。)

"With just a prompt, you can use generative AI to generate a beautiful picture of a person that never existed, or a picture of a futuristic scene, or a picture of a cool robot."
(只需一个提示词,你就可以用生成式 AI 生成一张从未存在过的人的美丽图片,或者一个未来场景的图片,或者一个酷炫机器人的图片。)

"At the heart of this really magical process of generating beautiful images is again supervised learning."
(在这个看似神奇的美丽图像生成过程的核心,依然是监督学习。)


总体结论

本讲以"可选"之名,呈现了生成式 AI 中最具视觉冲击力的技术——图像生成。吴恩达通过苹果加噪/去噪→绿色香蕉生成这两个演示,将扩散模型这一复杂技术降解为"给图片加噪、再学会去噪"的直观过程,并再一次将其归结为监督学习的应用。这一讲最重要的价值不在于技术细节,而在于认知升级:图像生成不是艺术魔法,而是大规模监督学习的工程产物,这与 LLM 文字生成遵循同一套底层逻辑。理解这一点,有助于学习者对整个生成式 AI 的能力版图形成更完整、更清醒的认识。


逐字稿(中文翻译)

感谢你坚持陪我走完这最后一个关于图像生成的可选视频。本周到目前为止,我们把大部分注意力放在了文字生成上——文字生成是很多用户正在使用的功能,也是所有生成式 AI 工具中影响最广的。但生成式 AI 令人兴奋的地方还包括图像生成,而且也开始出现一些能同时生成文字或图像的模型,这些有时被称为"多模态模型",因为它可以在多种模态(文字或图像)下运行。我想在这个视频中和你分享图像生成是如何工作的。

只需一个提示词,你就可以用生成式 AI 生成一张美丽的、从未在现实中存在过的人物图片,或者一个充满未来感的场景图片,或者一个酷炫机器人的图片。这项技术是如何实现的呢?

今天的图像生成主要是通过一种叫做"扩散模型"(Diffusion Model)的方法来实现的。 扩散模型从互联网或其他来源的海量图像中学习,而扩散模型的核心,其实是监督学习。以下是它的工作方式:假设算法在互联网上找到了一张苹果的图片,它希望从这张图片以及其他数以亿计的图片中学习如何生成图像。

第一步,是对这张图片逐步添加越来越多的噪声:从这张清晰的苹果图片出发,变成稍微模糊的版本,再变成更模糊的版本,最终变成一张看起来完全是纯噪声的图片——所有像素都是随机选取的,完全看不出苹果的样子。扩散模型然后以这些图片作为数据,用监督学习来训练:输入一张含噪声的图像,输出一张稍微清晰一点的图像。

具体来说,训练数据集会这样构建:第一个数据点是——如果输入是第二张稍微有噪声的图片,我们希望监督学习算法输出一张更干净的苹果图片;另一个数据点是——给定第三张更有噪声的图片,我们希望算法输出一张稍微清晰一点的版本;最后,给定一张纯噪声图片,我们希望它能输出一张稍微能看出苹果轮廓的图片。

在对数以亿计的图像完成这样的训练之后,当你想要用它来生成一张新图片时,操作方式如下:先生成一张纯噪声图片——每一个像素都完全随机选取——然后把这张图片输入到我们训练好的监督学习模型中。模型会从这张纯噪声图片中去除一点点噪声,你可能会得到一张模糊地暗示着中间有某种水果的图片,但还看不清楚是什么。把第二张图片再次输入模型,它又去除了一点点噪声,现在看起来像是一张模糊的西瓜图片。再应用一次,最终得到一张非常漂亮的西瓜图片。

我在演示中用了四步加噪(在上一张幻灯片)和四步去噪(在这张幻灯片),但在实际的扩散模型中,大约 100 步会更为典型。

所以这个算法可以完全随机地生成图片,但我们希望能通过指定提示词来控制它生成什么。让我描述一下这个算法的一个改进版本,让你可以加入文字描述或提示词来告诉它你想生成什么。

在训练数据中,除了苹果这样的图片,我们还会加入一段描述或提示词——比如"这是一个红苹果"。然后我们同样对这张图片逐步加噪,直到得到纯噪声的第四张图片。但我们改变了学习算法的构建方式:不再只是输入稍微有噪声的图片并期望输出一张干净的图片,而是把输入 A 改为"有噪声的图片"加上"能生成这张图片的文字描述,即'红苹果'",然后我们希望算法根据这个输入输出一张干净的苹果图片。类似地,我们会用其他有噪声的图片生成更多数据点:每次给定有噪声的图片和文字提示"红苹果",我们希望算法学会生成一张更清晰的红苹果图片。

这样在非常大的数据集上完成训练之后,当你想用它来生成"绿色香蕉"时,操作方式如下:同样从纯噪声图片开始——每个像素完全随机——然后把这张纯噪声图片连同提示词"绿色香蕉"一起输入到监督学习算法中。既然它知道你想要绿色香蕉,算法(希望)会输出一张隐约暗示中间有某种绿色水果的图片——这是图像生成的第一步。

接下来,我们把这张右侧输出的图片作为输入 A,再次连同提示词"绿色香蕉"一起输入,让它生成一张噪声更少的图片——现在已经能清楚看出这是一根有噪声的绿色香蕉了。再做一次,它最终去除了大部分噪声,我们得到了一张相当漂亮的绿色香蕉图片。

这就是扩散模型生成图像的工作方式——而在这个看似神奇的生成精美图像的过程核心,依然是监督学习。感谢你陪我完成这个可选视频,期待下周再见。下周我们将更深入地探讨使用生成式 AI 构建的各种应用,期待和你一起探索。下个视频见。


本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第十讲(可选视频)。

中文配音 · 可下载

图像生成

下载 MP3
想直接聊聊这篇?扫码加我 →

相关阅读