内容摘要
本视频是"人人皆可用的生成式 AI"课程第二周第十讲(可选视频),也是第二周的最终视频。吴恩达介绍了两个当时处于前沿的 LLM 扩展方向:工具使用(Tool Use)和智能体(Agents)。工具使用让 LLM 的输出不仅仅是文字,而是能触发真实系统操作(如下单、调用计算器);智能体则更进一步,让 LLM 作为"推理引擎"自主规划并执行多步骤任务序列。吴恩达对 Agent 技术的评价是"令人兴奋但尚未成熟",并以此作为整个第二周的收官思考。
核心观点
-
工具使用(Tool Use):让 LLM 的输出触发真实系统操作
LLM 不仅能生成文字,还可以输出"结构化指令"来调用外部软件系统。以点餐机器人为例:当用户说"来个汉堡"时,LLM 实际上会生成四行输出:- 三行内部指令(如"为用户9876下单送到该地址")
- 一行面向用户的回复("好的,正在路上!") 外部系统读取内部指令并触发实际的餐厅下单流程,用户只看到最后一行。这种"工具调用"模式让 LLM 从纯文字工具进化为能驱动真实业务流程的引擎。
-
安全关键操作必须加入人工确认环节
下错单是有代价的——因此好的设计应该在 LLM 确认订单之前,弹出验证对话框让用户确认是否正确,再收费并发出订单。这一原则更广泛地适用于所有"安全关键"或"任务关键"操作:LLM 输出不完全可靠,对于不可逆的代价高昂的操作,必须保留人工确认步骤。 -
工具使用也用于推理增强——计算器是最典型的例子
预训练 LLM(甚至指令微调的 LLM)不擅长精确数学。如果问"100 元存银行 5% 年利率 8 年后是多少?",LLM 可能给出$147.4这样错误的数字。解决方案:让 LLM 不直接回答,而是输出"calculator(100 × 1.05^8)"这样的计算器调用指令,由外部计算器执行并返回正确答案$147.74,再插回到回答中。这类推理工具(计算器、代码解释器、搜索引擎等)让 LLM 能把自己不擅长的部分"外包"给专业工具。 -
智能体(Agents):让 LLM 自主决定多步骤行动序列
Agent 是工具使用的延伸,核心区别在于:不是人告诉 LLM 调用哪个工具,而是由 LLM 作为"推理引擎"自己规划需要执行哪些步骤。例如,对于"帮我调研 Better Burger 的主要竞争对手"这一任务,Agent 可能自主规划:搜索竞争对手列表 → 访问每家竞争对手的官网 → 基于首页内容为每家写一份摘要——并自动执行这一系列操作。 -
Agent 技术令人兴奋,但 2023 年底尚未成熟
吴恩达明确指出,Agent 技术虽有一些不错的演示,但"还没准备好正式上线",对于大多数重要应用尚不够可靠。他认为这是 AI 的一个令人期待的未来方向:如果 LLM 作为推理引擎能够安全、负责任地自主规划和执行任务,将会大幅扩展 AI 的实用能力。
关键收获
💡 收获 1:工具使用是 LLM 从"对话工具"到"业务系统驱动器"的关键跨越
没有工具使用,LLM 只能输出文字,用户需要自己去执行操作。有了工具使用,LLM 的输出可以直接触发下单、发邮件、查询数据库等真实操作,彻底改变了 LLM 在软件系统中的定位——从"辅助建议者"变成"主动执行者"。
💡 收获 2:"LLM 的输出分为用户可见层和系统操作层"——这是理解工具调用的关键
在工具调用场景中,LLM 的完整输出通常包含用户不可见的结构化操作指令和用户可见的自然语言回复。理解这个两层输出模型,有助于设计出既用户友好又系统可靠的 LLM 应用。
💡 收获 3:工具使用的核心思路是"把 LLM 不擅长的任务外包给专业工具"
计算器处理精确数学,搜索引擎处理实时信息检索,代码解释器处理程序执行——LLM 只负责理解意图、规划调用、整合结果。这种"LLM 作为协调者,工具作为执行者"的分工,是现代 LLM 应用架构的基本范式。
💡 收获 4:Agent 的核心创新是"把任务规划权交给 LLM 本身"
传统工具调用仍然需要人来决定"什么时候调用什么工具"。Agent 的突破在于让 LLM 自己做这个决定——这意味着人只需要给出目标,LLM 自己规划并执行路径。这是从"指令执行者"到"目标导向的自主规划者"的质的跨越。
💡 收获 5:Agent 技术的成熟将在很大程度上取决于 LLM 的可靠性和安全性
吴恩达强调 Agent 需要"安全、负责任"地执行——这正是当前 Agent 技术最大的挑战。单步错误在普通 LLM 应用中代价有限,但在 Agent 的多步骤自主执行链中,错误会级联放大。这也是为什么 Agent 技术的商业成熟度落后于其技术演示。
重要引述
"An LM that's been fine-tuned to output text like this will be able to generate an order, which in this case would trigger a software application that passes the restaurant ordering system a request to deliver a burger."
(一个经过微调输出这类文本的 LLM,将能够生成一个订单,这在本案例中会触发一个向餐厅订单系统发送送餐请求的软件应用。)
"Just as you and I might use a calculator to calculate the right answer to a problem like this, we can also give the LLM a calculator too to help it get the right answer."
(就像你我可能会用计算器来计算这类问题的正确答案一样,我们也可以给 LLM 提供一个计算器,帮助它得到正确答案。)
"There's a lot of excitement and research on agents, but this is at the cutting edge of AI research and is not yet mature enough to count on for most important applications."
(围绕智能体的研究有很多令人兴奋的进展,但这仍处于 AI 研究的前沿,对于大多数重要应用来说尚不够成熟。)
总体结论
本讲以两个递进的概念——工具使用和智能体——为第二周画上了令人期待的句号。工具使用是当前已被广泛部署的实用技术,让 LLM 从"对话系统"进化为"业务流程驱动器";而 Agent 则代表了一个更远大的愿景:LLM 作为自主推理引擎,不仅执行指令,还自己规划和决策。两者共同揭示了一条清晰的发展轨迹:LLM 的能力边界正在从"文字生成"向"自主行动"不断延伸。对于关注 AI 落地的从业者,工具使用是当下可以立刻应用的工程范式;对于关注 AI 未来的思考者,Agent 技术的发展方向则值得持续跟踪。
逐字稿(中文翻译)
欢迎来到本周的最后一个视频。在这个视频中,我想和你分享 LLM 如何开始使用工具,以及讨论一个前沿话题——智能体(Agents)——即我们让 LLM 自己决定下一步想要采取什么行动。我们来看看。
工具使用(Tool Use)
在之前点餐机器人的例子中,我们看到如果你说"来个汉堡",机器人可能会回复"好的,正在路上!"为了让聊天机器人真正下单并把汉堡送给你,幕后实际上发生了以下事情:LLM 不能仅仅说"好的,正在路上"——它需要采取某种行动,实际上把汉堡送给你。所以一个 LLM 可能会输出这样的内容:
"为用户 9876 下单送至该地址……(用户消息显示为:好的,正在路上!)"
一个经过微调、能输出这类文本的 LLM,将能够生成一个订单,这会触发一个软件应用,向餐厅订单系统发送一个请求,将汉堡送到该用户的地址。展示给用户的不是 LLM 的完整输出——LLM 的完整输出是这里的全部四行文字,但只有最后一行"好的,正在路上!"被发送给用户作为回复。
这就是 LLM 工具使用的一个例子——LLM 输出的文字可以触发对某个软件系统的调用,从而下达餐厅订单。当然,下错单是一个代价高昂的错误,所以也许更好的用户界面是:在最终确认订单之前弹出一个验证对话框,让用户确认"是"或"否",确认你已经正确获取了订单,然后再收费并发送给他们。显然,鉴于 LLM 的输出并不完全可靠,对于任何安全关键或任务关键的操作,在让 LLM 独自触发某个可能代价高昂的错误之前,让用户先确认那是正确的操作,是一个好主意。
工具也可用于推理增强
除了用于触发操作的工具,工具也可以用于推理。例如,如果你问 LLM:"如果我把 100 元存入一个支付 5% 利率的银行账户,8 年后我会有多少钱?"LLM 可能会生成一个听起来合理的答案,比如 147.4 美元——但这个数字其实是错误的。事实证明,LLM 通过学习预测下一个词,或者甚至通过指令微调,在精确数学方面并不擅长。就像你我可能会用计算器来计算这类问题的正确答案一样,我们也可以给 LLM 提供一个计算器,帮助它得到正确答案。
如果 LLM 不是直接输出答案,而是输出这样的内容:"复利计算后……计算器(100 × 1.05^8)",这可以被解释为调用外部计算器程序的命令,明确计算出正确答案——实际上是 147.74 美元——并将其插回文本中,给用户正确的金额。
所以,通过赋予 LLM 在其输出中调用工具的能力,我们可以显著扩展 LLM 的推理能力或行动能力。工具使用今天已经是许多 LLM 应用的重要组成部分。当然,这些应用的设计者应该注意确保工具不会以造成伤害或不可逆损害的方式被触发。
智能体(Agents)——超越工具的前沿领域
超越工具,进入一个更具实验性的领域——AI 研究人员一直在研究"智能体",它不只是触发单一工具执行一个操作,而是探索 LLM 是否能够自主选择并执行复杂的行动序列。
围绕智能体的研究有很多令人兴奋的进展,但这仍处于 AI 研究的前沿,对于大多数重要应用来说尚不够成熟。但我想和你分享 AI 社区中很多人对此感到兴奋的原因。
如果你向一个基于 LLM 构建的 Agent 说:"帮我调研 Better Burger 的主要竞争对手",那么这个 Agent 可能会使用 LLM 作为推理引擎,来弄清楚它需要执行哪些步骤来完成你"调研 Better Burger 竞争对手"的任务。这个推理引擎可能决定:首先需要搜索主要竞争对手的列表,然后访问每个竞争对手的官网,最后为每个竞争对手基于其首页内容写一份摘要。然后,也许通过对这个推理引擎进行一系列调用,它可能会发现要搜索主要竞争对手,它必须触发一个工具来调用网络搜索引擎,查询"Better Burger 竞争对手";然后访问一些主要竞争对手的官网来下载其首页;接着再次调用 LLM 来总结它们在互联网上的官网上找到的文本。
关于 Agent 已经有一些不错的演示,但这项技术还真的没有准备好正式上线。但也许在未来,随着研究人员不断改进,它会变得越来越有用。我认为,如果 LLM 作为推理引擎能够安全、负责任地帮助用户决定下一步要采取什么行动序列,那将是令人兴奋的未来。
感谢你,并恭喜你完成了第二周的全部内容!课程还有最后一周,下周我们将看看生成式 AI 如何影响企业,包括你如何能为自己的业务找到生成式 AI 的使用案例,以及生成式 AI 如何影响社会和对就业的冲击。期待下周与你相见!
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第十讲(可选视频)。
工具使用与智能体
下载 MP3