内容摘要
本视频是"人人皆可用的生成式 AI"课程第二周第四讲,核心内容是调用大语言模型 API 的成本直觉建立。吴恩达通过一个具体的数字计算案例——"用 LLM 生成足够让一名员工阅读整整一个小时的内容,需要花多少钱?"——帮助学习者从抽象价格表走向真实的成本感知。结论是:对于大多数企业内部使用场景,LLM 调用成本出乎意料地低廉(约 8 美分/小时/人),远低于大多数人的预期。
核心观点
-
不同 LLM 的 API 调用价格差异显著,但整体比人们想象的便宜
以 2023 年末数据为例:OpenAI 的 GPT-3.5 约为每 1000 token 收费 $0.002(0.2 美分),GPT-4 约 6 美分/千 token,Google Palm 2 和 Amazon Titan Light 同样价格低廉。开发者通过 API 调用 LLM 的成本已经进入非常低的区间。 -
Token 是什么:大约等于一个词,但比词略多
Token 是 LLM 处理文本的基本单位,大致是词或词的子部分。常见词(如"the"、"Andrew")通常是一个 token;不常见词(如"translate")可能被拆成"tr"+"anslate"两个 token;更生僻的词(如"tonkotsu")可能被拆成四个 token。整体来说,平均每个 token 约等于 3/4 个词,换算关系是:1000 个词 ≈ 1333 个 token。 -
输入 token(提示词)通常比输出 token(生成内容)便宜
技术上,LLM API 同时对输入和输出计费。但输入 token 几乎总是比输出 token 更便宜,因此分析成本时可以主要关注输出 token 的费用,并将输入成本作为追加项估算。 -
实战计算:让一名员工专心阅读 LLM 输出内容一整小时,成本约 8 美分
计算过程:典型阅读速度约 250 词/分钟 → 一小时需要 15,000 词输出 → 加上同等长度的提示词(约 15,000 词)→ 共 30,000 词 ≈ 40,000 token → 以 $0.002/千 token 计算 → 40 × $0.002 = $0.08(8 美分)。 -
面向内部团队的应用成本极低;面向百万用户的免费产品则需注意规模
8 美分/小时在美国最低工资($10~$15/小时)面前几乎可以忽略不计——只要 LLM 能提升员工生产力,这个成本增量非常值得。但如果是面向百万用户的免费产品,8 美分 × 100 万次 = 8 万美元的成本就不可小觑,需要结合商业模式综合考量。
关键收获
💡 收获 1:从价格表到成本感知——数字计算才能真正建立直觉
很多人看到 $0.002/千 token 觉得"便宜",但不知道"到底有多便宜"。吴恩达的计算框架——以"让一个人阅读一小时所需的内容量"为基准——把抽象数字变成了有意义的参照系,这是建立成本直觉最有效的方式。
💡 收获 2:Token ≠ 词,但"词数 × 1.33 ≈ token 数"是够用的估算
无需深究 LLM 分词机制,只要记住"生成 1000 个词大约需要 1333 个 token",就可以快速估算任何应用场景的 API 成本,误差在可接受范围内。
💡 收获 3:内部工具场景几乎不需要担心 LLM API 成本
对于企业内部效率工具(文档摘要、邮件生成、报告分析等),LLM API 成本几乎是噪音级别的开销。真正的成本在于工程时间和维护,而非 token 费用。
💡 收获 4:规模是成本的放大器——百万用户免费产品需单独建模
吴恩达特别指出:当面向百万用户提供免费服务时,每用户 8 美分累积起来就是 8 万美元,这时 LLM 成本就成为商业模式的关键变量。这提醒我们,成本评估必须结合用户规模和商业模式同步进行。
💡 收获 5:GPT-4 与 GPT-3.5 的价格差是 30 倍——选型时成本不可忽视
同样的任务,GPT-4($0.06/千 token)的成本是 GPT-3.5($0.002/千 token)的 30 倍。能力提升是否值得 30 倍的成本?这是每个 GenAI 项目在模型选型时都必须回答的问题。
重要引述
"A token is loosely either a word or a subpart of a word — because that's how large language models process text."
(Token 大致上是一个词或词的子部分——因为这就是大语言模型处理文本的方式。)
"On average over large collections of text, roughly each token is about three-quarters of a word. So if you were to generate 300 words, that would cost you about 400 tokens."
(在大量文本的平均统计中,每个 token 大约等于 3/4 个词。所以如果你要生成 300 个词,大约需要 400 个 token。)
"I find that for many applications, using an LLM turns out to be cheaper than most people think."
(我发现,对于很多应用来说,使用大语言模型实际上比大多数人想象的要便宜。)
总体结论
本讲是第二周中最"落地"的一讲——通过一个清晰的从词数到 token 数、再到美元费用的换算链条,帮助学习者真正建立起 LLM API 成本的直觉认知。最核心的结论是:对于面向内部团队的企业应用,LLM API 成本几乎可以忽略不计(约 8 美分/人/小时);唯一需要警惕的是面向海量用户的免费产品场景,此时成本可能快速累积。这一讲也为后续更高级的技术选择(RAG、微调、预训练)提供了成本视角的背景:当 prompt-only 方案足够便宜时,是否有必要投入更多成本进行模型优化?这是每个 GenAI 项目经理都应该权衡的问题。
逐字稿(中文翻译)
在这个视频中,我想和你一起快速浏览几个例子,帮助你建立对大语言模型在软件应用中使用成本的直觉认知。我们来看看。
这些是不同大语言模型调用的示例价格,面向开发者开放——也就是说,当你在代码中调用这些大语言模型时的收费标准。OpenAI 的 GPT-3.5 收费为每 1000 个 token 0.002 美元,即每 1000 个 token 0.2 美分;GPT-4 的费用要贵得多,每 1000 个 token 6 美分;Google 的 Palm 2 和 Amazon 的 Titan Light 也相对便宜。我在这里展示的是生成不同数量 token 的成本。
从技术上讲,大语言模型对提示词的长度也会收费,但提示词的长度——有时称为"输入 token"——几乎总是比输出 token 的成本更低。所以我们现在只关注输出 token 的成本。
你可能想知道什么是 token?事实证明,token 大致上是一个词或词的子部分——因为这就是大语言模型处理文本的方式。所以像"the"或"example"这样的常见词,当大语言模型处理时会被计为一个 token;我的名字"Andrew"是一个相对常见的名字,所以也是一个 token。但是像"translate"这样不太常见的词,大语言模型可能会将其拆分为两个子词"tr"和"anslate",因此让它生成"translate"会消耗两个输出 token,而不像更常见的词只消耗一个 token。"Programming"这个词可能会被 LLM 拆分为"program"和"ming",也是两个 token;而像"tonkotsu"这样更不常见的词可能会被拆分为四个 token:"ton"、"k"、"ots"和"u"。但在大量文本文档的平均统计中,每个 token 大约等于 3/4 个词。所以如果你要生成 300 个词,大约需要 400 个 token。如果这个数学计算对你来说不太好理解,不用担心,但我希望你能从中获得的直觉是:token 的数量大致等于词的数量,但略微多一点,大约多出 33%。
接下来我们来做这个计算,假设成本为每 1000 个 token 2 美分。当然,如果你使用不同的 LLM 选项,成本可能更高或更低。
假设你正在为自己的团队构建一个 LLM 应用,也许是为了生成对团队成员有用的文本供他们阅读,那么让我们来估算一下:让团队中的某个人专注阅读 LLM 输出内容整整一个小时,需要花多少钱?
典型的成人阅读速度大约是每分钟 250 个词,所以要让一个人阅读一个小时,你需要生成 60 × 250 = 15,000 个词的 LLM 输出内容。但我们还需要给 LLM 发出提示词来让它生成这些内容,如果我们假设提示词的长度和输出内容的长度相当,那可能还需要再加 15,000 个词的输入——也就是说,如果我们总共需要 15,000 个词的输入,再加上生成 15,000 个词的输出,才能让一个人阅读一个小时。当然,这是一个非常粗略的假设,但对于建立直觉来说应该够用了。
所以总共我们需要为 30,000 个词付费,正如我们在上一张幻灯片中看到的,因为每个 token 大致对应 3/4 个词,30,000 个词大约对应 40,000 个 token。如果成本是每 1000 个 token 0.002 美分,那么生成 40,000 个 token 的成本是 40 × 0.02 = 8 美分。
所以如果你的软件应用使用 OpenAI、Anthropic、Google、AWS 或其他公司托管的云服务,让一个人专心阅读一个小时大约需要 8 美分。我知道我在这个计算中做了很多假设,但这个数字看起来还是相当便宜的。在美国,很多地方的最低工资大约是每小时 $10 到 $15,所以额外支付 8 美分让人专心阅读一个小时,似乎是一个很小的增量成本——尤其是如果这能帮助他们提高生产力的话。
当然,如果你有一个拥有百万用户的免费产品,没有任何相关收入,那么 8 美分乘以一百万可能就会变得昂贵了。但我发现,对于很多应用来说,使用 LLM 实际上比大多数人想象的要便宜。
希望这能给你提供一些关于大语言模型成本的有用直觉。让我们继续下一个视频,我们将学习一些更先进的技术,可以让你的 LLM 变得更强大。下个视频见!
本文档根据视频字幕整理翻译,内容为 DeepLearning.AI "Generative AI for Everyone" 课程第二周第四讲。
成本直觉
下载 MP3