内容摘要
本视频是"人人皆可用的生成式 AI"课程第一周第六讲,深入探讨 LLM 的"阅读"类任务。与"写作"任务(短输入→长输出)相反,"阅读"任务的模式是:给定较长文本,生成较短的结构化输出。吴恩达通过四个递进的实例——校对文本、总结长文章、呼叫中心通话记录摘要、客户邮件路由与情感分析——展示了阅读类任务从个人用途到企业软件应用的完整谱系,并特别强调了**在提示词中提供约束条件(如部门列表)**的重要性。
核心观点
-
阅读任务的结构:长输入 → 短/结构化输出
与写作任务相反,阅读任务的输入通常比输出长得多。典型模式:给 LLM 一篇文章、一段通话记录、一条客户评论,让它输出摘要、分类结果或情感标签。 -
校对:LLM 能发现人类遗漏的拼写和语法错误
即使自己仔细校对三四遍,LLM 仍能找出遗漏的错误。给出上下文("这是一个玩具网站的文字,请检查拼写/语法/别扭的句子并重写")会进一步提升校对质量。 -
摘要:快速消化长篇内容的利器
吴恩达展示了一个真实案例:同事 Eric Brynjolfsson 发来一篇关于"图灵陷阱(Turing Trap)"的长文章,他直接把全文粘贴给 LLM 生成摘要,迅速了解核心观点(AI 应该增强人类而非替代人类),再决定如何回复邮件。 -
企业级阅读应用:软件化才是正途
呼叫中心案例:录音→语音识别→文字稿→LLM 摘要,自动为每一通客服电话生成简报,让管理者快速了解全局趋势。这类场景必须构建为软件应用,而非让人手动复制粘贴。 -
提示词中的约束条件是企业应用的关键
客户邮件路由案例揭示了一个重要技巧:如果只让 LLM"决定路由到哪个部门",它可能会输出一个不存在的部门名称(如"投诉部")。只需在提示词中加一句"只从以下部门列表中选择",准确率就能大幅提升。这是将 LLM 从"通用"变为"可靠"的关键步骤。
关键收获
💡 收获 1:阅读任务是 LLM 最被低估的能力之一
很多人知道 LLM 能写东西,但"让 LLM 读大量文本并提炼关键信息"这个用途同样强大,且往往更贴近企业降本增效的需求。
💡 收获 2:摘要功能让知识工作者获得信息效率的飞跃
不是每篇文章都值得全文阅读,但每篇文章的核心观点都值得知道。LLM 摘要是解决"信息过载"的实用工具,今天就可以开始用。
💡 收获 3:给 LLM 提供"选项列表"能显著提升输出的实用性
在路由、分类、标记等场景中,必须明确告诉 LLM 它可以选择的选项集合。自由输出 + 关键业务场景 = 不可控风险;约束输出 + 具体选项 = 可靠的生产系统。
💡 收获 4:情感分析仪表板是 LLM 读取类任务的典型商业应用
餐厅/品牌每天有大量评论,用 LLM 自动判断正/负情感并追踪趋势,能让企业在问题早期就收到预警,而不是等差评堆积才反应。
💡 收获 5:"如果你希望有人读完这段文字后能快速告诉你关键信息"——这就是阅读任务的判断标准
吴恩达给出了一个简洁的自测框架:如果一个任务的本质是"读一段文字→给出简要指示",那它就是适合 LLM 的阅读任务。
重要引述
"LMs are also useful for many reading tasks — by that I mean tasks where you would input a prompt and have it generate usually a similar length or often shorter output."
(LLM 对许多阅读类任务同样有用——我指的是:你输入一个提示词,让它生成通常与输入长度相近或更短的输出。)
"If you tell it what you want the text to be for... it will do a much better job of finding the errors specific to that context."
(如果你告诉它这段文字的用途……它就能更好地发现特定语境下的错误。)
"Choose department only from the following list — and in this case given the set of choices, it routes it to the Apparel Department correctly."
(只从以下列表中选择部门——有了这组选项约束之后,它就能正确地将邮件路由到服装部门。)
总体结论
本讲将"阅读"这一抽象能力落实为四个具体、可操作的应用场景,从最简单的个人校对到复杂的企业情感分析仪表板,覆盖了从"个人用户"到"企业级软件"的完整路径。最核心的工程洞察是:给 LLM 提供约束条件(选项列表、格式要求)是将其部署为可靠生产系统的必要步骤,而非可选项。"图灵陷阱"的引用也暗示了本课程的深层价值取向:AI 的目标应是增强人类,而非替代人类——读一篇摘要后去读原文,这才是正确的人机协作姿态。
逐字稿(中文翻译)
在上一个视频中,我们看了"写作"类任务——给 LLM 一个提示词,让它生成比输入提示词长得多的输出。事实证明,LLM 对许多"阅读"类任务同样有用。我所说的"阅读"任务是指:输入一段提示词,让它生成通常与输入等长、或往往更短的输出。让我们来看几个阅读任务的例子,从我自己经常用到的开始——校对。
很多时候,当我写了一段文字,我会自己仔细读三四遍,检查拼写和语法错误。但即便我自以为认真校对了,大语言模型还是能找出我漏掉的错误。这里有一个你可以尝试的提示词示例:"请校对以下文字",而且我发现,如果你告诉它这段文字的用途——比如"这是一段用于玩具网站的文字"——再要求它"检查拼写和语法错误以及别扭的句子,并重写修正后的版本",效果会更好。这里有一段带有错误的文字,大语言模型的输出修正了"snuggle"的拼写错误,并修复了这里的一个语法问题。当我写作时,如果我希望文字没有拼写和语法错误、有时也希望没有别扭的句子,我自己实际上就会用这个方法来校对自己写的东西。
LLM 常被用于的第二类阅读任务是总结长文章。我的一位合作者 Eric Brynjolfsson——他是斯坦福大学的教授——曾经给我发来一封邮件,附上了他写的一篇题为《图灵陷阱》的文章链接。我知道这是一篇好文章,但它很长,我没有时间在回复他的邮件之前把整篇文章读完。于是我实际上用了下面这个提示词,把他的整篇文章粘贴到了大语言模型的网页界面,让它快速为我生成了一份摘要。结果发现,他在这篇论文中讨论的是:类人的 AI 固然有其好处,但让 AI 来增强人类而非自动化人类工作,还有很多可以做的事情。Brynjolfsson 在《图灵陷阱》这篇文章中的核心观点是:与其让 AI 自动化或替代人类的工作,我们应该更多地投入精力,让 AI 补充和增强人类的工作。借助大语言模型对这篇长文的摘要,我能比自己读完整篇文章更快地回复他的邮件。顺便说一句,这是一篇很好的文章,我后来确实读了全文,非常享受。但今天,我有时确实会用大语言模型来为我摘要那些我没有时间完整阅读的内容。这是一个你可以相对快速地用大语言模型网页界面自己尝试的场景。
现在,这类任务也有软件应用版本,并且正在企业中快速普及。让我用一个例子来说明。假设你是一个客户服务呼叫中心的经理,呼叫中心有很多客服代理(就像左边这位戴着麦克风的人)在跟客户(右边这位)打电话。如果你有权限录音,你可以把这些通话录音通过语音识别系统转成文字稿。如果你有很多客服代理在进行对话,你最终会得到大量文字稿。如果你想了解呼叫中心里正在发生什么,你可能会发现文字太多根本看不完。
对于这样一段客服与客户之间的文字对话记录,你想了解这通电话里发生了什么。大语言模型的一个用途就是:让它总结整段对话,生成一个简短摘要——比如"MK41 127KX 的奖励功能坏了"之类的。如果你用一个软件应用来处理所有这些文字稿并生成摘要,那么作为经理,你就可以快速浏览所有摘要,或许能发现一些需要关注的问题或趋势。这样的系统会被实现为一个使用大语言模型的软件应用——因为让你或其他任何人把这些对话一条一条地复制粘贴到大语言模型提供商的网页,显然是行不通的。
在客户服务交互方面,大语言模型也被用于客户邮件分析。在之前的视频中,你看到了"判断一封客户邮件是否为投诉"的例子——在这个例子中答案是否,以及应该路由到哪个部门。这也是另一个使用大语言模型的软件应用。
让我更深入地看一下如何构建这个应用,重点关注"决定把这封邮件路由到哪个部门"这个环节。你可以这样写提示词:让 LLM 读这封邮件,并决定路由到哪个部门。你可以指定任务并提供邮件内容。但结果发现,用这样的提示词,算法可能会把它路由到"投诉部门"——而你的组织里可能根本没有这个部门。这就是一个 LLM 没有得到足够上下文、不知道它实际可以选择的部门名称的例子。相比之下,如果你更新提示词,说"读这封邮件,选择最合适的部门进行路由,并且只能从以下部门列表中选择",在这种情况下——给定了可供选择的选项集合——它就能正确地将邮件路由到服装部门。构建大语言模型应用的这个过程,同样并不罕见:第一次写出的提示词不太对用,当你发现它把邮件路由到了一个不存在的"投诉部门",只需更新提示词,问题就解决了。
最后我想提到的一个应用是声誉监控——你可以用 LLM 构建一个仪表板,用来追踪你的业务或产品的客户情感(正面或负面)的走势。例如,如果你经营一家餐厅,偶尔有客户写在线评价或发邮件描述他们的体验,你可以用这样的提示词:"读以下评价,判断其情感是正面还是负面。"让它自动判断每条评价是正面还是负面。比如"食物太棒了,服务超友好"就是正面情感。然后,通过软件统计每天正面评价和负面评价的数量,你可以构建一个随时间追踪情感趋势的仪表板。看起来客户情感相当正面,但如果它开始出现这样的负面趋势——负面评价越来越多——这个仪表板就能提醒你:可能有什么事情在发生,我们需要关注,看看餐厅是否有什么需要改进的地方。
在本视频中,我们看了几个阅读类应用,包括:校对、摘要、邮件路由、餐厅评价情感分析。如果你能想到这样的任务——你希望有人能读完一段文字,然后简单说几句或给出一些关键提示——那它就很可能是一个适合让 LLM 为你完成的阅读类任务。接下来,让我们进入下一个视频,看看"对话"类任务。
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第六讲。
生成式 AI 应用:阅读
下载 MP3