AI 的隐忧

内容摘要

本视频是"人人皆可用的生成式 AI"课程第三周第七讲，也是课程中最具社会议题深度的一讲。吴恩达系统地梳理并回应了围绕 AI 的三大核心担忧：（1）AI 会不会放大人类最坏的一面（偏见问题）；（2）AI 会不会让我们失业；（3）AI 会不会导致人类灭绝。对于每种担忧，吴恩达既承认其合理性，也提供了技术层面的缓解路径和历史层面的类比与佐证，最终以审慎乐观的态度作结——AI 总体上是增加人类未来存续机会的力量。

核心观点

担忧一：AI 放大人类偏见——RLHF 是当前最有效的缓解技术
LLM 从互联网文本中学习，而互联网反映了人类社会的偏见、仇恨和误解。典型例子：问"那位 COO 是___"，许多模型会选择"男性"，这扭曲了现实（所有性别都可以成功领导公司）。缓解路径：
- 微调（第二周已讨论）
- RLHF（人类反馈强化学习）：
  - 第一步：针对含偏见的提示词（如"那位 COO 是___"），收集模型生成的不同回答，由人类打分（非性别偏见的"男性或女性"得高分，含偏见表达或带偏见/种族歧视的回答得低分）
  - 第二步：用（回答，分数）数据训练监督学习"奖励模型"，自动化打分
  - 第三步：用奖励模型对大量模型回答评分，优化 LLM 使其生成更高分的回答
- 现在 LLM 的输出已远比普通互联网文本更安全、更少偏见，且还在持续改进。
担忧二：AI 抢工作——放射科医生案例揭示"任务替代"与"整体替代"的本质差异
2016 年，深度学习先驱 Jeff Hinton 预言：5 年内 AI 将能取代放射科医生，人们现在应该停止培训放射科医生。但现实是：5 年过去了，没有一个放射科医生的朋友因 AI 而失业。原因有二：
- 技术原因：解读 X 光片比当时预想的更难
- 更重要的原因：放射科医生并非只做一件事！根据 O*NET，放射科医生有约 30 项不同任务，只有其中一项是"解读 X 光和医学影像"。其他任务包括：操作成像设备、与患者沟通检查结果、应对检查中的突发情况（如患者恐慌发作）、记录程序和结果等。
- 结论：斯坦福大学放射学教授 Curtis Langlotz 的话道出了本质——"AI 不会取代放射科医生，但使用 AI 的放射科医生将会取代不使用 AI 的放射科医生。"
- 历史规律：从蒸汽机到电力到计算机，每一次技术革命都创造了远多于其摧毁的工作岗位。企业在增长（潜力无上限）而非成本节省上投入更多，AI 也会带来大量新工作。
担忧三：AI 导致人类灭绝——吴恩达的审慎评估：论据不具体、不特定
AI 引发的灾难确实存在（自动驾驶车祸、2010 年算法引发的股市闪崩、司法系统中不公正的 AI 量刑）。但人类灭绝级别的风险：
- 有人担心坏人用 AI 制造生化武器，或 AI 无意中像人类驱使其他物种灭绝一样驱使人类灭绝
- 吴恩达咨询了 AI 领域最聪明的一些人，发现这些论点不具体、不特定——大多数都归结为"可能会发生"，加上"这是一种新技术，所以这次可能不同"
- 但这句话对人类发明的每种新技术都成立；证明 AI 不会导致人类灭绝相当于证明一个否命题
- 吴恩达的立场：人类有丰富的经验控制比任何个人更强大的实体（公司、国家），也有经验管理无法完全控制但仍然安全且有价值的事物（航空：早期飞机死了很多人，但我们从中学习，造出了更安全的飞机，制定了更好的规则）。AI 也在沿着类似路径进步。
- 更重要的论点：气候变化、疫情、小行星撞击等真实的人类存续威胁，AI 将是我们应对这些挑战的关键工具。AI 提高了人类在未来千年成功存续的概率，而非降低它。
AGI（人工通用智能）是这些焦虑的根源
计算机在某些狭窄维度已超越人类，但 AI 进步如此之快，以至于许多人无法预测几年后的样子。这种不确定性，包括关于"灭绝风险"的担忧，根源之一在于人们不确定 AI 何时会达到 AGI——即能够完成人类所有智力任务的 AI。这为下一讲的主题做了铺垫。

关键收获

💡 收获 1：RLHF 将 AI 对齐问题从"哲学讨论"变成了"工程问题"——而且正在奏效
AI 偏见不是一个无解的哲学难题，而是一个可以通过训练技术系统性地改善的工程问题。RLHF 提供了一个具体可操作的路径：人类的价值判断被量化为分数，分数被用来训练奖励模型，奖励模型被用来优化 LLM——这是当前最有效的 AI 对齐技术，且其效果已经可量化。

💡 收获 2：放射科医生案例是理解"AI 与就业"关系的最佳范本——"任务替代"≠"职业替代"
Jeff Hinton 的预言错在哪里？不是低估了 AI 的进步速度，而是高估了"解读 X 光"在放射科医生工作中的占比。这完全印证了本课程前几讲的核心框架：工作由任务构成，AI 替代的是任务，而非整份工作。30 项任务中只有部分任务可被自动化，并不意味着职业消失。

💡 收获 3：对于 AI 灭绝风险，吴恩达的立场是"不是否认，而是要求具体论证"
吴恩达没有轻率地说"AI 不会导致灭绝"，而是指出这些论点目前缺乏具体性和特定性——没有人能清晰地说明 AI 如何一步步导致人类灭绝。这是一个认识论上更诚实的立场：我们不能证明负面不会发生，但这不意味着我们应该把所有资源投入到应对一个机制尚不明确的威胁。

💡 收获 4："使用 AI 的放射科医生将取代不使用 AI 的放射科医生"是这一代知识工作者的职业生存法则
Curtis Langlotz 的这句话具有普遍意义，不只适用于放射科医生。在 GenAI 时代，真正的职业风险不来自于"AI 取代了你的职业"，而来自于"你的竞争对手已经学会用 AI 提升效率，而你没有"。主动学习和使用 AI 工具，是每个知识工作者在这一时代的核心职业责任。

重要引述

"AI won't replace radiologists, but radiologists that use AI will replace radiologists that don't."
——Curtis Langlotz，斯坦福大学放射学教授
（AI 不会取代放射科医生，但使用 AI 的放射科医生将会取代不使用 AI 的放射科医生。）

"Every wave of technology, from the steam engine to electricity to the computer, has created far more jobs than it destroyed."
（从蒸汽机到电力到计算机，每一次技术浪潮都创造了远多于其摧毁的工作岗位。）

"Most of the arguments boil down to 'it could happen' and some will add that this is a new type of technology so things could be different this time — but that statement is true for every new type of technology that's been invented by humanity."
（大多数论点都归结为"可能会发生"，有些人还会补充说这是一种新型技术，所以这次可能会不同——但这句话对人类发明的每种新型技术都成立。）

"My view is that if we want humanity to survive and thrive for the next thousand years, AI increases the odds of us successfully getting there."
（我的观点是：如果我们希望人类在未来千年存续和繁荣，AI 提高了我们成功实现这一目标的概率。）

总体结论

本讲是课程中思想密度最高、社会视角最宏观的一讲。吴恩达通过三大关切的系统性回应，展示了一个 AI 从业者如何既诚实面对 AI 的真实风险，又不陷入悲观或过度恐慌。偏见问题有技术路径（RLHF）正在持续改善；就业问题需要理解"任务替代"与"职业替代"的本质差异，以及历史规律中技术创造就业的长期趋势；灭绝风险的论点目前缺乏具体性，而真正的人类存续威胁（气候、疫情等）反而需要 AI 来应对。贯穿全讲的核心立场是：对 AI 的恐惧和焦虑本身就是一种成本，而理解 AI 的真实能力和局限，是做出理性决策的前提。

逐字稿（中文翻译）

在短短时间内，获取生成式 AI 的渠道已遍布全球，让许多人能够生成高质量的文章、图片和音频。伴随这些惊人的能力，也出现了许多关于 AI 的担忧。我认为，即便在生成式 AI 兴起之前，我们就生活在一个充满焦虑的时代——对环境的焦虑，对权威的合法性和能力的焦虑，对社会公平对待每个人的能力的焦虑，甚至对我们所有人未来将面临什么的焦虑。作为一种非常强大的技术，AI 承载了这种焦虑的很大一部分。在这个视频中，让我们来看看一些与 AI 特别相关的焦虑和担忧。

担忧一：AI 可能放大人类最坏的一面

一个被广泛持有的担忧是 AI 是否会放大人类最坏的冲动。LLM 是在来自互联网的文本上训练的，互联网反映了人类的一些最好品质，但也反映了我们的一些最坏品质，包括我们的一些偏见、仇恨和误解。LLM 也学到了这些负面品质。那么，AI 会放大我们最坏的冲动吗？

在第一周，我们见过一个 LLM 在外科医生还是护士更可能是男性还是女性方面表现出性别偏见的例子。再举另一个也许稍微简单一点的例子：如果你让一个经过初始训练的 LLM 填空，"那位 COO 是___"，许多模型会倾向于选择"男性"这个词。当然，这是一种社会偏见，歪曲了所有性别都可以成功领导公司这一事实。互联网上的文本代表了我们的现在和过去，所以也许并不令人惊讶，一个从这些数据中学习的 LLM 也会反映我们过去和现在的一些偏见。但也许我们希望 LLM 代表一个更公平、更少偏见、更公正的充满希望的未来，而不仅仅是我们过去的数据。

幸运的是，LLM 正在通过微调（我们在第二周讨论过）以及更高级的技术（如人类反馈强化学习，即 RLHF）变得更少偏见。在第二周有一个关于 RLHF 的可选视频，无论你是否看过，我都想简单介绍一下 RLHF 是如何帮助让 LLM 变得更少偏见的。RLHF 是一种训练 LLM 生成更符合人类偏好的回答的技术。RLHF 的第一步是训练一个答案质量模型——称为奖励模型——它能自动对答案打分。在这一步，我们用类似"那位 COO 是___"这样的查询来提示 LLM，收集来自 LLM 的不同回答，然后让人类对这些答案打分——比如在 1 到 5 分的量表上，我们给高度理想的答案（如"男性或女性"）高分，给无意义的答案（如"飞机"）低分，而任何包含性别偏见或种族偏见，或包含性别歧视或种族歧视的答案将获得非常低的分数。以提示词、回答和人类打出的分数作为数据，然后用监督学习算法训练一个奖励模型，该模型可以输入一个回答并给它打分。我们这样做是因为让人类对回答打分代价高昂，但一旦监督学习算法学会了自动对回答打分，我们就可以自动且低成本地对大量回答进行打分。最后，现在 LLM 有了一个经过学习的奖励模型来对尽可能多的回答打分，我们可以让 LLM 对许多不同的提示词生成大量回答，并让它进一步训练自己以生成更多获得高分的回答——因此反映了人类认为更理想的答案。

RLHF 已经被证明能够使 LLM 在性别、种族、宗教和其他人类特征方面表现出更少的偏见，它使 LLM 更不容易提供有害信息，也使其对人们更尊重和有帮助。现在，LLM 的输出已经比互联网上的平均文本安全得多、偏见少得多。但这种技术还在持续改进，所以 LLM 放大人类最坏品质的程度将继续降低，因为它们越来越与我认为我们所有人都希望的——一个更公平、更少偏见、更公正的世界——相符合。

担忧二：AI 会让很多人失业吗？

第二个重大担忧是，当 AI 能够比任何人都更快更便宜地完成我们的工作时，我们中的哪些人还能维持生计？AI 会让我们很多人失业吗？

为了理解这是否可能发生，让我们看看放射学这个领域。2016 年，很多年前，深度学习先驱、我的朋友 Jeff Hinton 说，AI 在分析 X 光图像方面变得如此出色，以至于在 5 年内可能会取代放射科医生的工作。他发表了这个惊人的声明："如果你作为放射科医生工作，你就像一只已经走过悬崖边缘但还没有往下看的郊狼，所以它没有意识到自己脚下没有地基。人们现在应该停止培训放射科医生，深度学习在 5 年内就能比放射科医生做得更好，这简直是显而易见的。"但我们现在已经远超过那个声明发出后的 5 年，而 AI 距离取代放射科医生还差得很远。我没有一个放射科医生朋友因 AI 而失去工作。为什么会这样？有两个原因。

第一，解读 X 光片其实比那时看起来更难，尽管我们在飞速进步。第二，也是更重要的一点，事实证明放射科医生做的远不止是解读 X 光图像。根据 O*NET，放射科医生大约要做 30 种不同的任务，其中一项是解读 X 光和其他医学图像，但他们还要做很多其他任务，对于 AI 来说，要以人类水平完成所有这些任务迄今为止还很困难。列举一些放射科医生除解读 X 光之外的其他任务：他们还要操作成像设备、向患者或其他相关方传达检查结果、应对检查期间的突发情况（例如患者在成像过程中惊恐发作），他们记录程序和结果，还有很多其他任务。我认为 AI 确实有很高的潜力来辅助或协助解读 X 光，技术上这在很大程度上已经通过监督学习而不是生成式 AI 实现了，但 AI 要完全自动化所有这些任务仍然遥不可及。

这就是为什么我认为斯坦福大学放射学教授、我的朋友和同事 Curtis Langlotz 说得很到位，他说："AI 不会取代放射科医生，但使用 AI 的放射科医生将会取代不使用 AI 的放射科医生。"我认为我们将在许多其他职业中看到这种效应。

当然，我不想轻视帮助许多人采用 AI 的挑战，也不想轻视少数工作岗位将会消失的人所遭受的痛苦，以及我们有责任确保受影响的人有安全网和学习新技能的机会。但从蒸汽机到电力到计算机，每一次技术浪潮都创造了远多于其摧毁的工作岗位。正如我本周早些时候提到的，在大多数技术创新浪潮中，企业最终把更多精力放在追求增长上——增长具有无限潜力，而非成本节省。所以 AI 将带来巨大的增长，并在此过程中创造许多许多新工作。

担忧三：AI 会毁掉一切吗？

这让我们想到也许是最大的焦虑：AI 会毁掉我们所知的一切吗？我们知道 AI 可能会造成危害——自动驾驶汽车已经发生了碰撞，导致生命的悲剧性失去；2010 年，自动交易算法导致了股市的闪崩；在司法系统中，AI 已经导致了不公正的量刑决定。所以我们知道设计不良的软件可以产生巨大影响，但它能导致人类灭绝吗？

我不明白会如何导致。我知道对此有不同的观点，但最近我主动找了一些对这个问题感到担忧的人，我与 AI 领域一些我所认识的最聪明的人交谈过。一些人担心坏人用 AI 来摧毁人类，比如制造生化武器；另一些人担心 AI 无意中推动人类走向灭绝，类似于人类在无意识中因为自己的行为导致了其他物种的灭绝。我试图评估这些论点的现实性，但发现它们并不具体，也没有具体说明 AI 如何会导致人类灭绝。大多数论点归结为"可能会发生"，有些人还会补充说这是一种新型技术，所以这次可能会不同——但这句话对人类发明的每种新型技术都成立。证明 AI 超级智能不会消灭人类，相当于证明一个否命题——我无法证明 AI 超级智能不会消灭人类，但问题是，似乎没有人确切知道它会如何发生。

但我确实知道：人类有丰富的经验控制比任何个人更强大的事物，比如公司和国家；我们也有经验管理那些我们无法完全控制但仍然有价值且安全的事物。例如，飞机——即使在今天，我们仍无法完全控制飞机，因为风和气流会让飞机颠簸，或者飞行员可能会犯错误。在航空的早期，飞机夺去了很多人的生命，但我们从这些经历中学习，造出了更安全的飞机，也制定了更好的操作规则，如今很多人乘坐飞机时不再为生命感到恐惧。类似地，对于 AI，我们正在学习更好地控制它，它每天都在变得更安全。

最后，如果我们看看对人类的真实威胁，比如气候变化可能导致大规模人口减少而危及地球，或者（希望不会发生）下一次全球大流行病，甚至可能性更低的小行星撞击地球并像消灭恐龙那样消灭我们——我认为 AI 将是我们应对这些挑战的关键部分。所以我知道现在对此有不同的观点，但我的观点是：如果我们希望人类在未来千年存续和繁荣，AI 提高了我们成功实现这一目标的概率。

计算机在某些狭窄维度已经比任何人类都更聪明，但 AI 持续以如此之快的速度进步，以至于许多人发现很难精确预测几年后它会是什么样子。我认为这些担忧的根本原因之一，包括灭绝风险，在于许多人不确定 AI 何时会达到人工通用智能，即 AGI——意味着能够完成人类所能完成的任何智力任务的 AI。让我们在下一个视频中更深入地了解 AGI！

本文档根据视频字幕整理翻译，内容为 DeepLearning.AI "Generative AI for Everyone" 课程第三周第七讲。

中文配音 · 可下载

AI 的隐忧

下载 MP3

AI 的隐忧

内容摘要

核心观点

关键收获

重要引述

总体结论

逐字稿（中文翻译）

生成式 AI 简介

生成式 AI 如何工作

LLM：你的思维伙伴