元启 · AI Research
/

生成式 AI 如何工作

How Generative AI Works

本视频是"人人皆可用的生成式 AI"课程第一周第二讲,由吴恩达主讲

YQ元启
·2026 年 5 月 12 日·7 分钟·studies·#generative-ai #andrew-ng #deeplearning-ai #week1

内容摘要

本视频是"人人皆可用的生成式 AI"课程第一周第二讲,由吴恩达主讲。视频从宏观视角出发,将生成式 AI 置于整个 AI 版图中加以定位,并深入浅出地解释了大语言模型(LLM)的运行原理。核心主线:生成式 AI 并非凭空而来,而是建立在"监督学习"这一经典 AI 技术之上;LLM 的本质是一个被训练成"预测下一个词"的超大型监督学习系统,经过数千亿乃至万亿词的训练后,形成了令人惊叹的语言生成能力。视频还回顾了 2010–2020 年大规模监督学习的历史背景,揭示了大模型崛起的规律性根基。


核心观点

  1. AI 是一组工具,监督学习与生成式 AI 是最重要的两个
    AI 领域包含监督学习、无监督学习、强化学习等多种方法,但对绝大多数业务场景而言,监督学习与生成式 AI 已足够应对核心需求,其余工具暂无需深入了解。

  2. 监督学习的本质:从输入 A 到输出 B 的映射
    监督学习擅长做"标注"——给定输入 A,生成对应的输出 B。经典案例包括:垃圾邮件过滤(邮件→是否垃圾)、在线广告点击预测、自动驾驶(图像→其他车辆位置)、医学影像诊断、语音识别(音频→文字)、情感分析(评论→正/负面)。

  3. 2010–2020 年是大规模监督学习的十年,奠定了 GenAI 的基础
    这一时期的关键发现:模型越大 + 数据越多 = 性能越强,且呈持续提升趋势。吴恩达在领导 Google Brain 团队时,核心策略正是"建造超大模型并喂给海量数据",这一策略被验证可行,推动了 Google 的 AI 跨越式发展。

  4. 大语言模型的运行原理:反复预测"下一个词"
    LLM 本质上是一个用监督学习训练出来的系统,学习目标是:给定前面的词语序列,预测下一个词是什么。每一句训练语料都会被拆解成大量"输入→下一个词"的数据对,反复训练后,模型掌握了强大的语言续写能力。

  5. 规模是关键:数千亿到万亿词的训练造就了 ChatGPT
    LLM 的训练数据规模是普通人难以想象的——ChatGPT 类模型的训练语料通常达到数千亿词,有时超过一万亿词。正是这种规模上的压倒性积累,才让模型在面对各种提示词时能生成高质量的文字回应。


关键收获

💡 收获 1:生成式 AI 不是魔法,而是监督学习的极致放大
ChatGPT 看似神奇,实则是建立在监督学习这一经典技术之上的。理解了"预测下一个词"这个核心机制,就拨开了生成式 AI 的神秘面纱。

💡 收获 2:大模型 + 大数据 = 性能持续提升,这是根本规律
小模型在数据增加后性能会趋于饱和,而大模型则随数据增长持续进步。这一规律是过去十年 AI 跃迁的底层逻辑,也是 ChatGPT 等产品成功的根基。

💡 收获 3:监督学习已渗透到日常生活的方方面面
垃圾邮件过滤、广告推荐、语音助手、医学诊断、工厂质检……监督学习早已无处不在,生成式 AI 不过是它进化出的最新形态。

💡 收获 4:LLM 的训练过程完全可以用一句话概括
"给定前面的词,预测下一个词"——这个看似简单的学习目标,在万亿词的数据规模加持下,涌现出了理解语义、遵循指令、创作内容等复杂能力。

💡 收获 5:LLM 目前的用途已十分实际
协助写作、查找基础信息、作为思维伙伴梳理问题——这些都是 LLM 当下对普通用户最切实的价值,无需等待未来,现在就可以开始使用。


重要引述

"The decade of around 2010 to 2020 was a decade of large scale supervised learning... this laid the foundation for modern generative AI."
(2010 至 2020 年前后的十年,是大规模监督学习的十年……正是这段历史,奠定了现代生成式 AI 的基础。)

"LLMs are built by using supervised learning... to repeatedly predict what is the next word."
(大语言模型是利用监督学习构建的……其核心任务是反复预测下一个词是什么。)

"A lot of data for LLMs means hundreds of billions of words and in some cases more than a trillion words."
(对于大语言模型来说,'大量数据'意味着数千亿词,有时甚至超过一万亿词。)


总体结论

本讲成功地将生成式 AI 从"神秘黑盒"还原为一个有据可查的技术演进过程。核心叙事清晰:监督学习是 AI 的基石 → 大规模监督学习(2010–2020)是大模型的前奏 → LLM 的本质是"预测下一个词"的超大型监督学习系统 → 海量训练数据催生了 ChatGPT 级别的涌现能力。这一讲解路径打破了许多人对 AI 的过度神化,同时又没有陷入技术细节的泥潭。对于非技术背景的学习者而言,这是建立"对 AI 工作原理有准确直觉"的最优路径之一。


逐字稿(中文翻译)

像 ChatGPT 和 Bard 这样的系统生成文字的能力,看起来几乎像是魔法,它们确实代表了 AI 技术的一大进步。但文字生成究竟是如何实现的?在本视频中,我们将深入探讨生成式 AI 技术的底层原理,这将帮助你理解它的用途,以及何时不应过度依赖它。让我们来看一看。

首先,我们来看看生成式 AI 在整个 AI 版图中处于什么位置。关于 AI,有大量的讨论、兴奋,也有不少炒作。我认为,一个有用的理解框架是:把 AI 看作是一组工具的集合。其中最重要的工具之一是监督学习,它非常擅长做"标注"这件事。不用担心现在不懂这是什么意思,下一张幻灯片会详细解释。而近年来开始大放异彩的另一个工具就是——生成式 AI。

如果你学过 AI,你可能知道还有其他工具,比如无监督学习和强化学习。但在本课程中,我会简要介绍监督学习,然后把大部分时间放在生成式 AI 上。这两个——监督学习与生成式 AI——是当今 AI 中最重要的两类工具。对于大多数业务场景,你只需关注这两个就够了。

在介绍生成式 AI 如何工作之前,让我先简要说明什么是监督学习,因为生成式 AI 正是建立在监督学习之上的。监督学习是一种让计算机做到:给定一个输入(我称之为 A),生成对应输出(我称之为 B)的技术。

来看几个例子:给定一封邮件,监督学习可以判断它是不是垃圾邮件——输入 A 是邮件,输出 B 是"是(1)"或"否(0)"。这正是今天垃圾邮件过滤器的工作原理。

第二个例子,可能是有些公司最赚钱的应用,虽然不是最鼓舞人心的——在线广告:给定一个广告和用户信息,AI 系统可以判断你是否可能点击那个广告。通过展示更相关的广告,这为在线广告平台带来了巨大的收入。

在自动驾驶和驾驶辅助系统中,监督学习被用来获取车前摄像头的画面和雷达信息,标注出其他车辆的位置。给定一张医学 X 光片,它可以尝试给出医学诊断。我也做过大量制造业缺陷检测的工作——系统可以拍摄流水线上的手机,检查是否有划痕或缺陷。在语音识别中,输入 A 是一段音频,输出 B 是文字转录。最后一个例子:如果你经营餐厅或其他面向消费者的业务,监督学习可以读取客户评论,并将每条评论标注为正面或负面情绪,这对品牌声誉监控非常有用。

事实证明,2010 至 2020 年前后的十年,是大规模监督学习的十年。我想简要介绍一下这段历史,因为它奠定了现代生成式 AI 的基础。从 2010 年前后,我们发现:对于很多应用,我们有大量数据,但即使喂给模型更多数据,如果模型本身很小,性能也不会提升太多。比如在构建语音识别系统时,即使你的 AI 听了几万甚至几十万小时的音频,它的准确率提升也是有限的。

但越来越多的研究者开始意识到:如果你在非常强大的计算机上训练非常大的 AI 模型,那么随着数据的增加,性能会持续稳定地提升。实际上,当年我在创立并领导 Google Brain 团队时,我给团队设定的核心使命就是:建造超大型 AI 模型,并喂给它们海量数据。幸运的是,这个方案奏效了,推动了 Google 大量 AI 进展。

大规模监督学习在今天依然很重要。但这种"超大模型做标注"的思路,正是我们走向今天生成式 AI 的路径。

现在我们来看看,生成式 AI 是如何利用一项叫做大语言模型的技术来生成文字的。大语言模型(简称 LLM)生成文字的方式之一是:给定一个输入,比如"我爱吃",这个输入叫做提示词(prompt),LLM 可以把这句话补全为"奶油芝士百吉饼",或者第二次运行时变成"我妈妈做的肉卷",第三次又变成"和朋友一起吃"。

那么 LLM 是如何生成这些输出的呢?答案是:LLM 是用监督学习构建的——输入 A、输出标签 B。它的训练目标是:反复预测下一个词是什么。举个例子:如果 AI 系统在互联网上读过这样一句话——"我最喜欢的食物是一个奶油芝士百吉饼"——这一句话就会被转化成大量数据点来训练"预测下一个词"。具体来说,给定"我最喜欢的食物是一个",下一个词是什么?答案是"百吉饼"。给定"我最喜欢的食物是一个百吉饼",下一个词是什么?答案是"搭配"。以此类推。这样,一句话就变成了多组"输入 A → 输出 B"的训练数据。LLM 就是通过这种方式学习——给定几个词,预测接下来应该出现什么词。

当你在极其强大的计算机上,用海量数据来训练非常大的 AI 系统时——对于 LLM 来说,"海量数据"意味着数千亿个词,有时甚至超过一万亿个词——你就得到了像 ChatGPT 这样的大语言模型,它给定一个提示词,就能非常出色地生成相应的文字回应。

不过我省略了一些技术细节。下周我们会讲到一个让 LLM 不只是预测下一个词,而是真正学会遵循指令、保持安全输出的过程。但 LLM 的核心,是这套从海量数据中学习预测下一个词的技术。

这就是大语言模型的工作原理——它们被训练成反复预测下一个词。事实证明,很多人——也许包括你——已经在日常工作中发现这些模型很有用:用来辅助写作、查找基础信息,或者作为思维伙伴帮你梳理思路。让我们在下一个视频中看一些具体的例子。


本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第二讲。

中文配音 · 可下载

生成式 AI 如何工作

下载 MP3
想直接聊聊这篇?扫码加我 →

相关阅读