内容摘要
本视频是"人人皆可用的生成式 AI"课程第二周第八讲,也是第二周正课的压轴。吴恩达为开发者提供了选择 LLM 模型的两个核心决策维度:一是模型规模(参数量)与任务复杂度的匹配,二是闭源模型与开源模型的选型权衡。视频结尾对第二周全部内容进行了回顾,并预告了两个可选视频(指令微调/RLHF、工具使用与 Agent)及第三周主题(LLM 对商业与社会的影响)。
核心观点
-
模型参数量是能力的粗略代理指标
模型规模与能力大致呈正比,但并非线性关系:- 约 10 亿参数(~1B):擅长模式匹配,具备基本世界知识。适合情感分类等相对简单的任务。
- 约 100 亿参数(~10B):具备更广泛的世界知识,能更好地遵循基本指令。适合点餐机器人等中等复杂度任务(若结合微调效果更好)。
- 千亿参数以上(100B+):拥有极丰富的世界知识(物理、哲学、历史、科学),且在复杂推理上表现更优。适合头脑风暴伙伴、需要深度知识或复杂推理的任务。
-
"够用就好"是选模型的核心原则
如果任务是点餐机器人,它不需要知道大量历史和哲学知识;用一个中小型模型(配合微调)通常就足够了。只有当任务涉及深度知识或复杂推理时,才值得使用大模型。 -
模型选择同样是经验性(实验性)的——测试优先于理论
尽管参数量是有用的参考,但具体任务的实际表现很难事先精确预测。吴恩达建议:先试几个不同的模型,测试后再决定,而不是只靠理论分析做选择。 -
闭源模型的优缺点
- 优势:集成简单(几行代码),通常包含最强大的模型,运行成本较低(云服务商大量优化了 API 服务)。
- 劣势:存在供应商锁定风险——虽然当前从一家换到另一家的切换成本不算很高,但需要重新测试所有提示词。
-
开源模型的优缺点
- 优势:完全控制模型(不用担心被弃用);可在本地运行(本地服务器、PC、笔记本、手机);全面掌控数据隐私——吴恩达以自己参与电子健康记录项目为例,因患者隐私要求无法上传至云端,团队使用本地运行的开源模型来处理数据。
- 劣势:通常需要更多技术能力来部署和维护。
关键收获
💡 收获 1:三档模型规模,对应三类任务复杂度——这是快速选型的心智模型
1B 参数 → 简单分类/模式匹配;10B 参数 → 中等指令遵循/特定领域对话;100B+ 参数 → 复杂推理/广博知识。这个粗略的三段划分不是完美公式,但可以作为选型的起始框架,然后再通过实验验证。
💡 收获 2:数据隐私需求是选择开源/本地模型的最强驱动力之一
吴恩达的电子病历案例说明了一个重要场景:当业务合规(HIPAA 等)明确禁止将数据发送至第三方云服务时,开源本地模型几乎是唯一可行的选择。这对医疗、法律、金融等高度受监管行业的 AI 应用来说尤为关键。
💡 收获 3:供应商锁定风险客观存在,但当前切换成本尚可接受
吴恩达承认闭源模型存在供应商锁定风险,但也坦诚目前的切换成本"不是很高"——主要是重新测试提示词的工作量。这是一个动态的权衡,随着行业标准化程度提高,切换成本有望进一步降低。
💡 收获 4:第二周构建了完整的"GenAI 应用开发者工具箱"
从"提示词即应用"到生命周期管理,再到 RAG、微调、预训练、模型选择——第二周系统地构建了一个非技术背景的人也能理解的 GenAI 应用开发全景图,为第三周讨论"AI 对商业和社会的影响"奠定了技术基础。
重要引述
"Loosely, if we look at models that are in the 1 billion parameter range, we'll find that they're often good at pattern matching and will have some basic knowledge of the world."
(大致来说,如果我们看大约 10 亿参数范围的模型,会发现它们通常擅长模式匹配,并具备一些基本的世界知识。)
"Development using LLMs is often a highly empirical, meaning experimental, process — so it might be worth just trying a few different models and testing them, and based on the results from testing pick what actually seems to work best."
(使用 LLM 进行开发通常是一个高度经验性的——也就是实验性的——过程,所以可能值得尝试几个不同的模型并测试它们,然后根据测试结果选择实际上看起来效果最好的方案。)
"Because of patient privacy, we just could not upload the patient records to a cloud provider — and so for that project, my team used an open-source model that we ran on our own computers."
(由于患者隐私,我们不能将患者记录上传到云服务提供商——因此对于那个项目,我的团队使用了一个运行在我们自己电脑上的开源模型。)
总体结论
本讲为 LLM 模型选择提供了清晰的实用框架:按参数量进行任务匹配,按数据主权需求选择闭源或开源,然后通过实验验证最终选择。它没有给出绝对的"最好的模型",而是强调适合具体应用场景的才是好模型。作为第二周正课的结尾,本讲也完成了对整周内容(项目生命周期 → RAG → 微调 → 预训练 → 模型选择)的回顾,构建出了一幅完整的 GenAI 软件开发地图,并为即将到来的第三周——LLM 对商业与社会影响的讨论——做好了技术铺垫。
逐字稿(中文翻译)
在使用 LLM 构建软件应用时,你会发现市面上有很多不同的 LLM——有大的、有小的、有开源的、有闭源的。你如何在所有这些不同选项中做出选择?在这个视频中,让我们来看看一些选型指南。
估量模型能力的一种方法是看模型规模。大致来说,如果我们看大约 10 亿参数范围的模型,会发现它们通常擅长模式匹配,并具备一些基本的世界知识。所以如果你想要的是对餐厅评论进行情感分类,我认为一个 10 亿参数的模型在这类模式匹配加上基本食物和词语知识方面应该可以做得很好。
当你升级到 100 亿参数的模型,你会发现这些模型拥有更丰富的世界知识——它们只是知道更多关于世界的冷僻事实,这些模型在遵循基本指令方面也会更好。所以如果你想构建一个点餐聊天机器人,一个 100 亿参数的模型可能就够用了,尤其是如果你对它进行微调,使其更擅长你想让它遵循的特定指令类型。
而对于参数量非常大的模型——比如 1000 亿参数以上——它们往往拥有非常丰富的世界知识,会了解很多关于物理、哲学、历史、科学等方面的知识,而且在复杂推理上也会表现得更好。这就是为什么如果你在构建一个点餐聊天机器人,也许你不需要那个聊天机器人知道那么多关于历史和哲学以及世界上所有其他事情的知识。这些模型中有一些可能便宜到可以把大型模型用于点餐聊天机器人也没关系,但我肯定倾向于将这些更大的模型用于涉及深度知识或复杂推理的任务——例如,如果我在寻找一个头脑风暴伙伴来帮助我思考想法,我通常会使用大型模型之一。
不过,我之前提到过的一件事是,使用 LLM 进行开发通常是一个高度经验性的——也就是实验性的——过程,所以很难提前确切地知道某个特定 LLM 的具体表现。虽然我在这里分享了一些通用指南,但在实践中,可能值得尝试几个不同的模型并测试它们,然后根据测试几个选项所看到的结果,选择对你的应用实际上看起来效果最好的方案。
你可能还需要做出的另一个决定,是使用闭源模型还是开源模型。
闭源模型通常通过云端编程接口(API)访问,我发现其中许多很容易集成到应用程序中——你只需写几行代码(就像我们本周早些时候看到的那样)就能将它们纳入软件应用。今天许多最大、最强大的模型也只通过云端编程接口提供,作为闭源模型;而且它们的运行成本也相对较低,因为托管这些模型的大公司通常已经投入大量工作,以低成本高效地提供这些 API 调用服务。
缺点是,如果你基于这些闭源模型进行开发,存在一定的供应商锁定风险。今天,从一家 LLM 换到另一家的切换成本并不是很高,但确实存在一些重新测试所有提示词的成本——以确认它们在另一家 LLM 上是否同样有效——如果你确实更换了供应商的话。
相比之下,现在也有很多开源模型可供选择。使用开源模型的一个优势是你对模型拥有完全控制权——你知道你始终可以访问该模型,不必担心提供该模型的公司是否会将你赖以构建的模型弃用或停用。你通常还可以在自己的设备上运行这些模型——所以如果你想在本地(也就是在你自己的服务器)或在 PC、笔记本电脑或移动设备上运行,那么开源模型可能给你提供一个很好的起点。
使用开源模型还可以让你在保持对数据隐私和数据访问完全控制的方式下构建应用程序。例如,我最近在参与一个使用电子健康记录的应用开发项目,由于患者隐私的要求,我们根本无法将患者记录上传到云服务提供商——因此,对于那个项目,我的团队使用了一个运行在我们自己电脑上的开源模型,因为我们必须这样做才能保证患者数据的隐私。
总结一下,本周我们讨论了使用 LLM 构建的软件应用:我们看到了 GenAI 项目的生命周期,以及 RAG 和微调等可以让你的 LLM 更强大的技术;最后在这个视频中,我们讨论了如何选择合适的模型来构建。
本讲之后还有几个可选视频:一个更深入地讲解使 LLM 不只是预测网络上的下一个词,而是真正遵循你的指令并以安全方式这样做的技术;另一个可选视频讲述了一些前沿技术,可以使用 LLM 自动决定要做什么,并在此过程中使用工具。如果你有兴趣,请随时去看看这些视频。
然后在本课程的下一周也是最后一周,我们将看看 LLM 技术如何影响商业和社会——例如,你如何确定对你的公司可能有用的 LLM 使用案例。我们下周还将系统地审视为什么某些工作受生成式 AI 影响更大或更小,以及从事这些工作的个人以及雇用从事这些工作的员工的企业,如何驾驭生成式 AI 带来的工作变革。期待下周与你相见!
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第八讲。
如何选择模型
下载 MP3