内容摘要
本视频是"人人皆可用的生成式 AI"课程第一周第七讲,聚焦于 LLM 三大任务类别的最后一类——"对话(Chatting)"应用。吴恩达首先介绍了专用聊天机器人的多种场景(旅行规划、职业建议、客服点餐、IT 密码重置),随后重点展示了客服聊天中心的自动化程度光谱——从纯人工、仅机器人,到"人工+机器人协作"各种中间形态,并给出了企业安全部署聊天机器人的分阶段最佳实践:内部测试 → 人工审核 → 直接对客。
核心观点
-
专用聊天机器人正在各行各业快速普及
除了 ChatGPT/Bard 这类通用聊天机器人,越来越多的企业正在构建专用聊天机器人,覆盖旅行规划、职业建议、烹饪指导、客户服务等场景。这类机器人专注于某一领域,深度远超通用工具。 -
能"采取行动"的机器人是下一阶段重点
聊天机器人不仅能生成文字回复,还可以与企业软件系统对接,执行实际操作——如帮客户下单、向用户发送短信、重置密码等。这类"有执行力的机器人"将在下周(W2)专题讲解。 -
客服对话自动化存在四种典型设计模式
- 纯人工:Human Service Agent 逐条回复
- 机器人辅助人工(Human-in-the-loop):机器人生成草稿,人工审核/修改后发出
- 机器人分诊:机器人处理简单请求,复杂问题上报人工
- 纯机器人:软件直接响应客户
-
Human-in-the-loop 是控制风险的关键设计
吴恩达详细解释了"人工在环"的价值:机器人生成建议回复 → 人工审核 → 确认无误后才发送。这直接对抗了 LLM 可能出错的风险,在下一讲中会进一步分析 LLM 的常见错误类型。 -
安全部署机器人的三阶段策略
- 阶段一:内部测试(只对自己团队开放,成员更宽容,出错成本低)
- 阶段二:人工在环(消息发出前有人工检查)
- 阶段三:直接对客(在确认消息质量稳定后,允许机器人直接和客户交流)
关键收获
💡 收获 1:专用聊天机器人正在将 LLM 能力深度植入各行各业
通用聊天机器人是入口,专用机器人才是企业落地的主战场。旅行、医疗、法律、客服——每一个"需要大量重复性对话"的场景,都是专用机器人的潜在市场。
💡 收获 2:"机器人分诊 10% 的退款请求"是一个极具说服力的 ROI 案例
吴恩达亲历了一个团队:机器人自动识别退款请求(占总量约 10%),并直接给客户发送处理指引,这一举措让人工坐席的工作量减少了 10%。这种可量化的效率提升,是推动企业投资 AI 客服的最有力论据。
💡 收获 3:人工在环(Human-in-the-loop)是风险与效率的最佳平衡点
纯机器人风险高,纯人工效率低。人工在环允许一个人同时监督多个机器人会话,极大提升效率,同时保留了对"出错回复"的拦截能力——这是当前最主流的企业级部署模式。
💡 收获 4:机器人让单个客服代理可以同时服务 4~16 个客户
在许多客服中心,一个人工坐席同时应对 4~16 个并行对话已成现实。机器人草稿大幅降低了每条回复的思考和打字时间,让高并发服务成为可能。
💡 收获 5:安全部署的起点永远是内部测试,而非直接对外
许多公司在部署机器人时犯的错误是"一步到位对外开放"。正确路径是:先对内部团队开放,收集真实使用数据,验证质量后再扩大范围。内部用户更宽容,出错代价最小。
重要引述
"Some of these bots can also interface with the rest of a company's software system and take actions, such as to put in an order for a cheeseburger to be delivered."
(某些机器人还能与公司其余软件系统对接,并执行实际操作,例如下一个送汉堡的外卖订单。)
"This type of design is often also called human in the loop because there's a human that's looped in and is part of the process before the message actually gets sent back to your customer."
(这种设计模式通常被称为"人工在环",因为在消息真正发回给客户之前,有一个人工环节被纳入流程中。)
"By just detecting that and automatically giving the customer instructions, this routed 10% or so of the traffic away from the human agents."
(仅通过检测退款请求并自动给客户发送处理指引,就将约 10% 的流量从人工坐席中分流出去。)
总体结论
本讲完成了"写作 / 阅读 / 对话"三大任务类别的最后一块拼图。"对话"不只是 ChatGPT 式的闲聊,更是可以嵌入企业流程、执行实际操作的专用智能体。吴恩达通过客服自动化光谱这个模型,将抽象的"聊天机器人"概念具体化为四种可落地的设计模式,并用亲历的"退款机器人"案例证明了 ROI。最重要的工程洞察是:部署机器人是一个渐进过程,安全优先,从内部测试起步,逐步向外延伸——这是平衡能力与风险的最优路径。本讲也为下一讲(W1 8,LLM 的能力与局限)做了铺垫:正是因为 LLM 会犯错,"人工在环"才如此重要。
逐字稿(中文翻译)
在前两个视频中,我们了解了写作和阅读类应用。在本视频中,我们将来看看对话类应用。除了 ChatGPT 和 Bard 这样的通用聊天机器人,许多公司正在探索是否可以构建专用的聊天应用。如果你所在的公司有很多人在与客户互动、或者有大量性质相似的对话,这可能是一个值得考虑的场景——专用聊天机器人能否帮助处理这类对话。让我们来看一看。
前面我们已经看过了一个客户服务聊天机器人的例子——它能够接受汉堡订单。另一个专用聊天机器人的例子,是专门帮助你规划旅行的机器人,比如"如何以经济实惠的方式在巴黎度假",就可以构建一个拥有丰富旅行知识的机器人来解答。今天,各家公司都在探索各种各样的咨询类机器人,比如:机器人能否提供职业发展建议,或者指导你烹饪一道菜?各种各样的专用机器人——在某一个领域特别擅长回答问题——正在不同公司中蓬勃发展。
其中一些机器人只能进行对话和提供建议,另一些机器人还可以与公司其余软件系统对接,并执行实际操作,例如:下一个外卖汉堡的订单。另一个可能需要执行操作的机器人例子是客服聊天机器人——事实上,很多 IT 部门每天都会收到大量的密码重置请求,如果机器人能搞定这件事,就能减轻 IT 部门的工作负担。这种需要发送短信验证身份、并实际执行密码重置的机器人,就是一个需要真正具备"在现实世界中采取行动"能力的机器人。下周我们会进一步讨论这类不只生成文字、还能真正采取行动的聊天机器人是如何构建的。
由于大量客服机构都在探索聊天机器人的应用,我想和你分享一下不同企业在实际使用中形成的几种典型设计模式。在这张幻灯片中,我重点讨论基于文字的聊天,而不是语音或电话形式的客服。
光谱的一端是纯人工客服:人工坐席逐条输入回复,比如"欢迎来到 P Burgers,请问您想点些什么?"而光谱的另一端是纯机器人:完全由软件直接响应客户。在这两个极端之间,还有几种常见的设计模式。
一种常见设计是"机器人辅助人工":机器人为人工坐席生成建议回复,但由人工坐席阅读消息、认为合适则确认发出,或根据需要修改后再发出。这种设计模式通常也被称为"人工在环(Human-in-the-loop)"——因为在消息真正发回给客户之前,有一个人工环节参与其中。这是规避聊天机器人说错话风险的一种方式,因为人工可以在发送前进行审核。在下一个视频中,当我们讨论 LLM 的能力与局限时,我们会聊到 LLM 有时会犯的一些错误——这种设计就是针对这些错误的一道防线。
在自动化程度更高一些的位置,是让机器人对消息进行"分诊":机器人处理简单的请求,而将自己还不太能搞定的问题上报给人工。事实上,我曾经带过一个团队,他们构建的机器人能够自动识别客户是否在申请退款——结果发现,退款请求大约占到了我们总对话量的 10%。仅仅通过自动识别这类请求并给客户发送处理指引,就将大约 10% 的流量从人工坐席中分流出去,为坐席节省了大量时间,让他们可以专注于处理那些更复杂、更需要人工判断的请求。
这种"分诊"设计是帮助人工坐席节省时间的另一种常见模式——让他们只需专注于处理那些真正需要人类专业判断的难题。在许多客服中心,一个人工坐席可能同时在进行 4 个、8 个,某些极端情况下甚至 16 个并行对话。有了机器人的辅助,人工更容易管理如此大量的并发对话。
鉴于机器人有时会说错话,我想和你分享一下,那些希望安全部署机器人的公司通常会经历怎样的过程。通常,公司会从内部向聊天机器人开始——只让自己的团队使用它,来回答旅行问题或其他机器人设计要解决的问题。假设你的内部团队会更有耐心、更理解机器人偶尔出错,也会更宽容地对待它——这就给了你一段时间来观察机器人的行为表现,同时避免可能让公司难堪的对外失误。
当这一阶段看起来足够安全时,常见的下一步是在人工在环的条件下部署——让人工在消息发出前检查尽可能多的消息,然后再真正发送给客户。在这样运行一段时间之后,如果机器人的消息看起来基本上可以安全地发给客户了,你才会考虑让机器人直接与客户沟通。当然,每家企业的具体情况不同——对于某些应用,由于流量太大,让人工检查每一条消息并不现实;但根据机器人出错的风险程度、流量大小,以及人工在环是否可行,这些都是我所看到的企业尝试安全部署机器人时常见的设计模式。
总结一下:我们已经看到 LLM 如何被用于写作、阅读和对话这三大类任务。这三个类别并不是 LLM 能做的事情的完整清单,而只是几个宽泛的大类,涵盖了你在实际中最可能用到的场景。LLM 能做很多事,但它也并非无所不能。在下一个视频中,让我们一起来看看 LLM 能做什么、不能做什么,更好地理解它的局限性所在。我们下个视频见。
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第一周第七讲。
生成式 AI 应用:对话
下载 MP3