元启 · AI Research
/

生成式 AI 项目的生命周期

Lifecycle of a Generative AI Project

本视频是"人人皆可用的生成式 AI"课程第二周第三讲,核心内容是**生成式 AI 软件项目的完整生命周期**

YQ元启
·2026 年 5 月 12 日·7 分钟·studies·#generative-ai #andrew-ng #deeplearning-ai #week2

内容摘要

本视频是"人人皆可用的生成式 AI"课程第二周第三讲,核心内容是生成式 AI 软件项目的完整生命周期。吴恩达通过两个案例(餐厅声誉监控系统、点餐聊天机器人)展示了一个 GenAI 项目从立项到部署的典型迭代路径:快速搭建原型 → 内部测试 → 发现并修复问题 → 部署 → 持续监控与改进。视频强调生成式 AI 开发本质上是一个高度实验性的经验主义过程,并预告了本周将深入讲解的三大技术提升手段:RAG、微调和预训练。


核心观点

  1. GenAI 项目的生命周期:范围界定 → 快速原型 → 内部评估 → 持续改进 → 外部部署 → 监控迭代
    这是一个螺旋式迭代路径,不是线性流程。每一次"内部评估发现问题 → 回到改进环节"都是正常的工程节奏,而非项目失败的信号。

  2. 原型可以在 1~2 天内搭建,但初版质量不高是正常的
    吴恩达特别指出:快速搭出第一版原型的价值,在于"让它可以被测试",而不是"让它完美"。发现问题才是构建原型的真正目的。

  3. 建设性的"失败"案例:牧师代码被判为正面评价、蘑菇菜单问题

    • 餐厅评论"my pasta was corked(我的意大利面被腐败了)"被错误判断为正面情感
    • 拉面"尝起来像拉面"——这到底是好事还是坏事?系统无法判断
    • 点餐机器人错误回复"对不起,我们没有蘑菇"(明明有) 这些贴近真实的错误案例,生动说明了为什么内部测试不可跳过。
  4. 生成式 AI 开发是高度经验主义(Empirical)的
    不同于软件工程中的确定性逻辑,GenAI 开发需要反复实验:尝试 → 发现错误 → 修复 → 再尝试。这与提示词迭代的逻辑完全一致,是 GenAI 项目开发的核心工作模式。

  5. 三大进阶技术:RAG、微调、预训练
    除了提示词优化,本周还将介绍:

    • RAG(检索增强生成):让 LLM 访问外部数据源(如公司内部文档)
    • Fine-tuning(微调):让 LLM 适应特定任务
    • Pre-training(预训练):从头训练一个大语言模型

关键收获

💡 收获 1:"内部测试然后再对外部署"是 GenAI 项目安全上线的关键防线
两个案例都展示了同一个模式:先让内部团队试用,发现边缘情况和错误,修复后再向外部用户开放。这与 W1 7 中聊天机器人部署的三阶段策略(内部 → 人工在环 → 直接对客)完全呼应。

💡 收获 2:用户总会尝试你从未预料到的输入
汉堡热量查询是一个典型的"用户超出系统设计范围"的例子。吴恩达说他每次都会"对用户的奇思妙想感到惊讶和喜悦"——这提醒我们,内部测试永远无法穷举所有边界情况,上线后的监控同样不可缺少。

💡 收获 3:RAG 是解决"系统不知道用户问的信息"的直接答案
当机器人不知道汉堡热量,引入 RAG 让系统能检索相关信息并给出正确答案——这是 RAG 技术最直观的使用场景,也是本周后续讲解的核心内容之一。

💡 收获 4:GenAI 项目开发节奏比传统软件项目快得多,但仍需迭代
1~2 天搭出原型,这在传统 ML 时代是不可想象的。但"快速原型"不代表"无需迭代"——速度优势体现在每次迭代的效率上,而不是跳过迭代环节。

💡 收获 5:提示词迭代 ≠ 唯一优化手段
本讲明确指出,提示词优化只是改善 GenAI 系统性能的方式之一。RAG、微调和预训练提供了三个不同量级的"系统能力提升"路径,将在本周逐一介绍。


重要引述

"Building a generative AI software application also tends to be a very iterative process."
(构建生成式 AI 软件应用也倾向于是一个高度迭代的过程。)

"Building generative AI software is a highly empirical — meaning highly experimental — process, meaning that we repeatedly try something and then find and fix mistakes."
(构建生成式 AI 软件是一个高度经验主义的——也就是高度实验性的——过程,这意味着我们反复尝试,然后发现并修复错误。)

"I've often been surprised and delighted by the strange and wonderful things that the users will try to do with your system."
(我经常对用户尝试用你的系统做的那些奇特而精彩的事情感到惊讶和喜悦。)


总体结论

本讲将软件工程中"生命周期"的概念引入生成式 AI 开发实践,用两个具体项目(餐厅评论分析、点餐机器人)描绘了一条清晰可操作的项目路径。最核心的工程哲学是:GenAI 项目开发是经验主义的,没有"写好提示词就完工"的捷径,迭代才是主旋律。这一讲也正式引入了三个本周将详细探讨的技术关键词——RAG、微调、预训练——为后续内容做了充分铺垫。对于任何想在企业中推动 AI 落地的人来说,本讲的"快速原型 → 内部测试 → 迭代部署"框架是立刻可以采用的行动指南。


逐字稿(中文翻译)

我想和你分享一下,构建生成式 AI 软件应用的过程是什么感觉。让我们来看看。

这就是构建一个生成式 AI 软件应用项目的生命周期。我们会从范围界定开始,决定这个软件要做什么。比如说,你决定要构建一个餐厅声誉监控系统。下一步就是实际去实现它。鉴于使用生成式 AI 构建 AI 应用的便利性(你可能在本讲之前的可选视频中已经见识过),通常你能很快搭建出一个原型,然后计划随着时间的推移不断改进这个软件原型。我工作过的一些应用,我们会在一两天内搭建出初始原型——说实话,初版原型不怎么好——但快速搭建让我们能够把它拿去进行内部评估,我们的内部团队会写各种不同的餐厅评论来测试系统,看看它给出正确响应的频率。

有时候,内部评估会发现一些它给出错误结果的例子。比如"my pasta was corked(我的意大利面变质了)",系统输出的是正面情感——有时候变质的意大利面确实好吃,但这听起来更像是负面情感。基于我们在内部发现的问题,我们会回去继续改进系统。正如你上周看到的,写提示词是一个高度迭代的过程,需要尝试一些东西、看看它是否有效,然后改进它。构建生成式 AI 软件应用同样往往是一个高度迭代的过程。在经过充分的内部评估、让你有足够信心认为系统表现良好之后,我们就会把它部署到外部,持续监控其表现。如果你部署了某个东西,但最初外部用户生成的输入也导致系统犯了一些错误,这不会让我感到意外。

比如,一个用户写道:"我的拉面尝起来像拉面,这是好事还是坏事?"如果你不熟悉拉面或日本料理,你可能不知道这是好事还是坏事。如果你的系统将此评为正面情感,但实际上,如果你点的是味噌拉面,你可能不希望它尝起来像博多拉面(博多拉面更像是猪骨汤底)。当你在外部发现这些错误响应时,你可能会决定回到内部评估环节,比如系统地了解你的系统是否在某些类型的菜系上表现不佳,或者回去利用这些经验教训来改进提示词或进一步改进系统——假设你认为这类错误是不可接受的。

所以,构建生成式 AI 软件是一个高度经验主义的——也就是说,高度实验性的——过程,这意味着我们反复尝试,然后发现并修复错误。我们已经看到,提示词本身就是一个高度经验主义的过程:你有一个想法,尝试提示词,看 LLM 的响应,然后也许更新你的想法和提示词,再来一次。但除了更新提示词,本周我们还会讨论其他改善生成式 AI 系统性能的工具。

本周稍后我们会讲到的一个工具是 RAG(检索增强生成),它让大语言模型能够访问外部数据源。本周还会讨论一种叫做微调(Fine-tuning)的技术,让你能够让大语言模型适应你的特定任务。最后是预训练(Pre-training),指的是从头开始训练一个大语言模型。如果你现在还不知道这些术语是什么意思,不用担心,我们会在本周详细讲解每一个,但它们都是除了提示词之外,为你提供不同方式来改善生成式 AI 系统性能的关键技术。

接下来,让我再通过第二个生命周期案例来说明——看看构建一个处理餐厅点单的系统会是什么样子。假设你决定将项目范围定在构建一个点餐客服聊天机器人来接受订单。你要做的就是先构建系统,快速搭出一个点餐聊天机器人;然后,因为我们不知道它的实际表现如何,你可以让内部团队试用,下各种不同的订单,看它表现如何。有时候它会给出好的响应,比如"您的芝士汉堡里要加泡菜吗,要的话还想加一些吗?"也有时候会给出意想不到的糟糕回应,比如——如果你的菜单上确实有蘑菇——机器人却说"对不起,我们没有蘑菇"。

与餐厅声誉监控系统类似,正是通过发现这类错误,才能帮助你改进系统。在你有足够信心这个系统可以安全对外部署之后,你就可以部署它,让顾客下真实的订单,同时监控大语言模型的响应,确保它如果仍然说了什么不太对劲的话,你可以继续改进其表现。在构建了多个生成式 AI 项目之后,我经常对用户尝试用你的系统做的那些奇特而精彩的事情感到惊讶和喜悦。比如,如果一个用户问"你们的汉堡含有多少卡路里?",系统最初可能不知道答案,但如果你发现了这一点,你就可以利用我刚才提到的 RAG 技术来更新系统,我会在本周稍后详细讲解这项技术,让你的软件应用能够给出正确答案。

这就是构建生成式 AI 软件应用的感觉。如果你在一家有几个或很多软件开发人员的公司工作,如果你有一个很酷的生成式 AI 应用想法,希望公司能够构建,这应该能让你对构建过程有一个大致的了解。

现在,我有时听到的一个担忧是:使用这些由互联网上公司托管的大语言模型,真的那么贵吗?事实证明,使用这些大语言模型的成本可能比很多人想象的要低得多。在下一个视频中,我想和你分享一些关于实际使用这些大语言模型到底有多贵或多便宜的直觉认知。我们进入下一个视频吧。


本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第三讲。

中文配音 · 可下载

生成式 AI 项目的生命周期

下载 MP3
想直接聊聊这篇?扫码加我 →

相关阅读