按次计费 vs 按量计费:长上下文场景如何省 40 倍

SillyTavern 中文教程站编辑组·最后更新 2026-05-14

AI API 两种主流计费模式完整对比。短对话用按量、长上下文必选按次的真实成本案例,Agent / 长文档分析 / 多轮对话场景的最优选择策略。

"我充了 500 块,玩了一周就花光了"——群里这种抱怨每天能看到。

很多新手以为"用得多花得多"是天经地义的事。但是长上下文场景下,选错计费模式可能让你的成本暴涨 40 倍。

这一篇讲清楚两种主流计费方式,以及什么时候该选哪种。

我自己也是踩了一次"长上下文按量爆账单"的坑,才回头研究按次计费的。

两种主流计费方式

按量计费(Pay-as-you-go)

主流方式。按你实际用了多少 token 收费:

输入 token:每百万 token 的单价从极便宜(Flash 系几毛钱)到旗舰款(几美元到十几美元)不等
输出 token:通常是输入价格的 5-10 倍,这是行业通行规则

优点:

用多少花多少
短对话、试水阶段成本低

缺点:

长对话成本爆炸式增长
输出价格远高于输入,容易超预期
长文档分析时单次费用可能上百块

按次计费(Per-request / Subscription)

每次 API 调用收一个固定费用,不管你的对话多长、token 多少:

国内中转平台常见: ¥0.5 - ¥5 / 次
企业定制: $0.1 - $2 / 次

优点:

成本完全可预测
长上下文 / 长文档性价比恐怖
Agent 工作流(单次任务输出几万 token)成本极低

缺点:

短对话不划算(几十字也是一次)
选项相对少(不是每个中转商都提供)

长上下文为什么按次更划算

来一个真实例子算账。

场景:分析一份 100 万字的文档(约 75 万 tokens)

按量计费(以主流旗舰为例):

输入:75 万 tokens(中端档单价下,大约几块到十几块人民币)
输出: 假设输出 5 万 tokens × 中端档输出价 × 5 万 tokens(几块)
实际总成本(按汇率): 约 ¥10-15

听起来不贵?但这只是一次分析。如果你做的是连续对话:

第二轮:输入变成 80 万 tokens(累积),输出 5 万
第三轮:输入变成 85 万 tokens,输出 5 万
第十轮:输入已经 120 万 tokens
...

到第二十轮累计花费可能 ¥126+。

按次计费:

每次调用 ¥3
二十轮 = ¥60
即使一百轮 = ¥300

长上下文 + 多轮对话场景下,按次比按量便宜 5-40 倍。

五个按次更优的场景

1. 成本可预测性

按次计费每次都是固定钱,月底账单不会爆雷。按量计费可能一次失误烧掉一大笔。

2. 边际成本归零

某些模型在 token 数量超过分界点(如 200K)后,按量单价会翻倍。按次计费没有这个问题——越长越划算。

3. Agent 任务优势

自主 Agent 一次任务可能生成数万 token 的中间推理。按量:一次任务可能 ¥10-30。按次:固定 ¥3-5。 Agent 大量场景下成本降低 80%+。

4. 缓存机制失效时的保障

许多按量计费的模型有"上下文缓存"(命中后输入费用打折)。但首次处理新文档没有缓存,要全额付费。按次计费没这个区别,首次和重复都一个价。

5. 企业预算友好

固定月费 + 按次套餐便于成本规划。按量计费容易出现"突发大额账单",财务难做预算。

怎么判断该选哪种

选按量计费(标准模式)

主要做短对话(每次 ≤ 10K tokens)
总用量较低(每月 < 100 美元)
不做长文档分析
偶尔玩玩,没固定使用模式

→ 推荐渠道:任何主流中转商。

选按次计费

经常做长文档分析(单次 ≥ 100K tokens)
跑 Agent 工作流(自动化任务)
长篇连续对话(累积 ≥ 50 万 tokens)
需要稳定的月度预算

→ 推荐渠道:支持按次计费的中转商(国内有几家专做这个,搜"按次计费 Claude"或"按次计费 Gemini")。

一个实际的决策树

你的单次对话 token 通常多少?

├─ ≤ 10K(普通聊天) │ └─ 选按量。Gemini Flash / DeepSeek V4-Flash 最经济 │ ├─ 10K - 100K(中等长度) │ └─ 选按量。Claude Sonnet 或 Gemini Pro 都不错 │ └─ ≥ 100K(长上下文) ├─ 偶尔(每月 < 5 次) │ └─ 按量也行,但要心理准备好账单 └─ 经常(每月 > 10 次) └─ 必须选按次计费!成本省一个数量级

一些反直觉的事实

"便宜的模型 + 按量" 不一定比 "贵模型 + 按次" 便宜

举例:你用 DeepSeek V4(超便宜)做长上下文对话:

按量计费:单次 ¥1
但你聊 100 轮 = ¥100

同样的场景用 Claude Sonnet(贵)+ 按次计费:

按次:每次 ¥3
100 轮 = ¥300

看起来 DeepSeek 便宜?但 DeepSeek 上下文累积到几十万 token 时,单次成本会从 ¥1 涨到 ¥10-20。

最后两者其实差不多——但 Claude Sonnet 文笔好得多。

"按量计费的'缓存优惠' 不一定救你"

很多按量计费平台主打"输入缓存命中只需 25% 价格"。听起来美好,但前提是:你聊的内容跟之前命中。

实际上做角色扮演时:

每条新消息都会改变上下文
缓存命中率低
全价输入的概率很高

别因为"缓存优惠"就放心选按量——具体场景具体算。

我自己的方案

选模型本身见《2026 主流 AI 模型横评》,这里只讲计费选型。

日常聊天(每次 < 30K tokens):用按量计费的中端模型(Gemini Pro / Claude Sonnet),成本可控
长篇连载(累积 50K+ tokens):切按次计费渠道,无上限
批量任务 / 翻译:用 DeepSeek V4-Flash 或 Gemini Flash-Lite(按量,极便宜)

一句结语

计费模式的选择,有时比模型选型更影响你的钱包。

短对话玩家——按量,选便宜模型。长上下文玩家——按次,质量优先。