内容摘要
本视频是"人人皆可用的生成式 AI"课程第一周第八讲,也是第一周内容的收尾之作。吴恩达通过一个生动的思维框架——"刚毕业的大学生"(Fresh College Grad)类比——帮助学习者快速判断一项任务是否适合交给 LLM 处理,随后系统盘点了 LLM 的五大具体局限:知识截止日期、幻觉(事实编造)、上下文长度限制、结构化数据处理能力差、偏见与有害输出。每一项局限都配有真实或贴近真实的案例,尤其是"律师因提交含虚假案例的 AI 法律文书而被处罚"的真实事件,令人警醒。
核心观点
-
"刚毕业的大学生"是评估 LLM 任务适配性的实用框架
判断一项任务是否适合 LLM 的好问题是:一个只按照提示词操作、没有任何公司专属背景知识、也没有网络搜索权限的应届毕业生,能完成这个任务吗?能完成的,LLM 基本也能做到;不能完成的,LLM 大概率也会挣扎。 -
知识截止日期:LLM 的世界认知在训练结束时"冻结"
一个以 2022 年 1 月互联网数据为训练集的模型,不会知道 2022 年票房冠军(《阿凡达:水之道》),也不会知道 LK-99 室温超导体的争议事件。LLM 对世界的认识永远停留在训练时刻,这是结构性的局限,无法通过提示词绕过。 -
幻觉:LLM 会用自信的语气编造事实
LLM 有时会"一本正经地编造"不存在的引语、判例、研究结果。典型案例:要求 LLM 引用莎士比亚谈及碧昂丝的语录——它真的能生成听起来颇为莎翁风格的"引言",即便莎士比亚的生卒年比碧昂丝早几百年。更严重的案例:一位律师使用 ChatGPT 生成法律文书,文书中包含大量虚构判例,律师将其提交法院后被制裁。 -
上下文长度限制:超长输入会被拒绝处理
LLM 能接受的输入有字数上限(许多模型几千词),超长文档必须分段提交。上下文长度(Context Length)是输入+输出的总限制,在实际使用中更多是输入端遇到瓶颈。 -
三大额外局限:结构化数据、偏见、有害输出
- 结构化数据(表格):LLM 不擅长处理 Excel 式的行列数据,这类任务更适合监督学习。
- 偏见:LLM 在训练时吸收了互联网上的社会偏见,例如会默认"外科医生"是男性、"护士"是女性。
- 有害输出:部分 LLM 曾输出危险或违法内容,但主流提供商已持续改善安全性,这一问题正在好转。
关键收获
💡 收获 1:"刚毕业大学生"框架是一个随手可用的判断工具
不需要技术背景,任何人都能问自己:"一个什么都不了解我公司的新人,只看着提示词,能做这件事吗?"这把工具能帮你在开始动手之前就发现任务是否超出了 LLM 的能力范围。
💡 收获 2:每次对话 LLM 都是一张"白纸"——没有记忆积累
吴恩达明确指出:每次提示 LLM,它都不记得之前的对话,就像每次都换了一个新的大学生来帮你。这意味着你不能靠"时间"来训练它了解你的业务或文风——上下文必须每次重新提供。
💡 收获 3:幻觉是已知风险,高风险文件必须人工核实
LLM 生成的法律文书、医疗建议、学术引用,都有可能包含听起来权威、实则虚构的内容。律师被处罚这个案例,是对所有"不加核实直接提交"使用方式的警告。
💡 收获 4:结构化数据是 LLM 的盲区,监督学习仍是最佳工具
表格数据(房价、销售记录、用户行为日志)不适合粘贴给 LLM 分析。这类"输入 A → 输出 B"的结构化预测任务,传统机器学习/监督学习依然是最优解。
💡 收获 5:了解局限性,才能找到规避局限性的路径
吴恩达提到,下周将介绍一些技术(如 RAG、微调等)来扩展 LLM 的能力边界,突破知识截止日期、幻觉等限制。理解当前局限,是寻找解决方案的起点。
重要引述
"Can a fresh college grad, following only the instructions in the prompt, complete the task you want? This is a useful mental framework."
(一个只按照提示词操作的应届毕业生,能完成你想要的任务吗?这是一个有用的思维框架。)
"Every time you prompt your LLM, the LLM does not actually remember earlier conversations — it is as if you're getting a different fresh college grad for every single task."
(每次你提示 LLM,它实际上并不记得之前的对话——就好像每次任务你都换了一个全新的应届毕业生来帮你。)
"There was a lawyer that unfortunately used ChatGPT to generate text for a legal case and actually submitted it to the court, not knowing that he was submitting an illegal filing with lots of made-up court cases."
(有一位律师不幸使用了 ChatGPT 为一个法律案件生成文书,并将其实际提交给了法院,却不知道他提交的是一份充斥着虚构判例的违规法律文件。)
总体结论
本讲是第一周内容的"压轴总结"——用"刚毕业大学生"框架收束了整周关于 LLM 能力的讨论,并以五大具体局限作为警醒。最重要的认知升级是:LLM 的局限性不是缺陷,而是设计固有属性,理解它才能正确使用它。知识截止日期可以通过 RAG(检索增强生成)部分弥补,幻觉可以通过人工核实来控制,上下文长度可以通过分段处理来绕过,结构化数据问题可以将 LLM 与监督学习结合使用来解决,偏见问题则需要在提示词设计和应用层面加以约束。律师被处罚的案例是全课程迄今最具冲击力的真实警示,值得所有 AI 从业者铭记。
逐字稿(中文翻译)
生成式 AI 是一项令人惊叹的技术,但它无所不能。在本视频中,我们将仔细看看 LLM 能做什么、不能做什么。我们先从一个我认为很有用的思维模型开始,说明它能做什么;之后我们一起来看看 LLM 的一些具体局限性。我发现,理解这些局限性可以降低你因尝试用它完成它真正不擅长的任务而碰壁的概率。那我们就开始吧。
如果你想判断某件事是否可以通过提示一个 LLM 来完成,我发现有一个问题能提供一个很有用的思维框架:我问自己——一个刚毕业的大学生,只按照提示词中的指示来操作,能完成你想要的任务吗?
举个例子:一个刚毕业的大学生能按照指示读一封邮件、判断它是不是投诉吗?我认为一个应届毕业生大概是可以做到的,而 LLM 也确实能做得很好。或者,一个应届毕业生能读一条餐厅评价、判断它是正面还是负面情感吗?我觉得他们应该能做得相当不错,提示 LLM 也同样可以。
再来看另一个例子:一个刚毕业的大学生,在对 CEO 或你的公司毫无了解的情况下,能写一篇新闻稿吗?这个应届毕业生刚刚从大学毕业,他们才刚认识你,对你和你的业务一无所知,所以他们最多只能写出一篇非常通用、难以令人满意的新闻稿。但另一方面,如果你给他们提供了关于你的公司和 CEO 的更多背景信息,我们再问:这个应届毕业生能基于这些基本的相关背景写一篇新闻稿吗?我认为他们也许能做得相当不错,LLM 也是如此。
当你把 LLM 想象成一个应届毕业生在做许多事情时,请把这位应届毕业生想象成一个拥有大量互联网通用知识的人——他们知道很多一般性知识,但他们必须在没有网络搜索引擎的情况下完成任务,而且他们对你或你的业务一无所知。为了清晰起见,在这个思维模型中:这位假设的应届毕业生必须在没有任何针对你的公司或业务的专项培训的情况下完成任务。另外,每次你提示 LLM,它实际上并不记得之前的对话——就好像每次任务你都换了一个全新的应届毕业生来帮你。所以你无法随着时间推移"训练"他们了解你业务的具体细节或你希望他们写作的风格。
"问问应届毕业生能做什么"这个经验法则是不完美的——有些事情应届毕业生能做,LLM 却不行,反过来也有。但我发现这是思考 LLM 能做什么、不能做什么的一个有用出发点。在这张幻灯片上,我们聚焦于"提示 LLM 能做什么";下周当我们讨论生成式 AI 项目时,我们会介绍一些稍微更强大的技术,它们可能能够将你用生成式 AI 能做的事情扩展到"应届毕业生"概念之外。
现在我们来看看 LLM 的一些更具体的局限性。
第一,知识截止日期。 LLM 对世界的了解,在它被训练时就"冻结"了。更准确地说,一个以截至 2022 年 1 月爬取的互联网数据为训练集的模型,对更近期的事件将一无所知。如果你向这样一个模型询问"2022 年票房最高的电影是什么",它会说它不知道——即便现在我们早已过了 2022 年,知道答案是《阿凡达:水之道》。大约在 2023 年 7 月,有报道声称一个研究团队发现了一种名为 LK-99 的室温超导体,你可能在新闻中看到过这张图片。这一说法后来被证明并不完全正确,但如果你向一个只学习了截至 2022 年 1 月互联网文本的 LLM 询问 LK-99,即便这件事在新闻中广泛报道,它也会对此一无所知。这就是所谓的"知识截止日期"——LLM 对世界的了解只停留在它被训练、或者说用来训练它的互联网文本被下载的那一刻。
第二,LLM 有时会直接编造事实,我们称之为幻觉(Hallucinations)。 我发现,如果我让 LLM 给我提供历史上知名人物的语录,它经常会直接捏造这些语录。比如,如果你让它给你三条莎士比亚写的关于碧昂丝的语录——由于莎士比亚在碧昂丝出生前几百年就已去世,我认为莎士比亚不可能说过任何关于碧昂丝的话,但 LLM 会自信地给你生成一些语录,比如"Thy voice doth shine like the sun, all hail the queen, she SMS we the of love"之类的——这些都是幻觉出来的莎翁式语录。或者,如果你让它列出加州审理的关于 AI 的法庭案例,它可能会给出看起来非常权威的答案,但事实证明,第一个案例是真实的,确实有一个 Waymo 诉 Uber 案,但我没能找到第二个"Ingason 诉 Chevron"案——那是一个幻觉出来的判例。
LLM 有时会用非常自信、权威的语气编造或捏造东西,这会误导人们认为这些捏造的内容是真实的。幻觉可能带来严重后果:有一位律师不幸使用 ChatGPT 为一个法律案件生成文书,并实际提交给了法院,却不知道他提交的是一份充斥着大量虚构判例的违规法律文件。从《纽约时报》的这条标题中,我们可以看到:在这场令人尴尬的庭审中,依赖 AI 的律师表示,他没有意识到这个聊天机器人可能会把他带入歧途。这位律师因提交充斥着捏造内容的法庭文件而受到处罚。因此,如果你将 LLM 用于具有真实后果的文件,理解这一局限性至关重要。
第三,LLM 在技术上的限制是输入长度有限。 提示词的长度以及 LLM 能生成的文本长度都是有上限的。许多 LLM 只能接受几千词的提示词,所以你能给它的上下文总量是有限的。如果你让它总结一篇论文,而论文的长度远超这个输入长度限制,LLM 可能会拒绝处理这个输入。在这种情况下,你可能需要每次给它一部分论文,让它逐部分总结;或者有时你也可以找一个输入限制更长的 LLM——有些可以支持数万词。技术上,LLM 有一个叫做"上下文长度"的限制,这实际上是输入加输出的总大小限制。当我使用 LLM 时,我很少因为生成了太多输出而碰到输出长度的限制,但如果我需要给它很多很多词的上下文,有时会碰到输入长度的限制。
第四,生成式 AI 目前对结构化数据的处理效果不佳。 所谓"结构化数据",我指的是表格式数据,比如你可能存储在 Excel 或 Google Sheets 中的数据。举个例子,这里有一张房价表格,包含了房屋面积(平方英尺)和价格两列数据。如果你把所有这些数字输入给 LLM,然后问它"我有一套 1000 平方英尺的房子,你认为合适的价格是多少",LLM 对这类任务其实并不擅长。如果把面积叫做输入 A、价格叫做输出 B,那么监督学习才是更适合用来估算价格作为面积函数的技术。再来看一个结构化/表格式数据的例子:显示不同访客访问你网站的时间、你向他们展示的报价,以及他们是否购买——同样,监督学习会比把所有这些时间、价格和购买信息复制粘贴到大语言模型提示词中更合适。与结构化数据相对,生成式 AI 最擅长处理非结构化数据——结构化数据指的是你会存储在电子表格中的表格式数据;而非结构化数据指的是文本、图像、音频、视频,生成式 AI 适用于所有这些类型的数据,尽管影响最大、也是我们在本课程中主要关注的是文本数据。
最后,大语言模型可能输出带有偏见的内容,有时也会输出有毒或其他有害言论。 举个例子,大语言模型是用互联网上的文本训练的,而互联网上的文本不幸地可能反映社会中存在的偏见。如果你让 LLM 补全句子"外科医生走向停车场,拿出了……",它可能会生成"他的车钥匙";但如果你说"护士走向停车场,拿出了……",它可能会说"她的手机"。在这种情况下,LLM 默认外科医生是男性、护士是女性,而我们都清楚地知道,外科医生和护士可以是任何性别。因此,如果你在一个此类偏见可能造成伤害的应用中使用 LLM,我会在提示词的设计和 LLM 的应用方式上格外谨慎,以确保不会助长这类不良偏见。最后,一些 LLM 还可能偶尔输出有毒或其他有害言论——例如,有些 LLM 有时会告诉人们如何做一些不良的、有时甚至是违法的事情。幸运的是,所有主要的大语言模型提供商都在持续努力提升这些模型的安全性,所以大多数模型随着时间的推移已经越来越安全,如果你使用主流 LLM 提供商的网页界面,要让它们输出这类有害言论已经越来越难了。
以上就是对"提示 LLM 能做什么、不能做什么"的总结。正如我提到的,下周我们会介绍一些技术,来克服这些局限性中的部分问题,让 LLM 能做的事情变得更广泛、更强大。但首先,让我们先来看看一些提示 LLM 的技巧——我希望我在下一个视频中分享的技巧,能立刻对你使用这些工具的方式有所帮助。下个视频见。
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第八讲。
LLM 能做什么、不能做什么
下载 MP3