按次计费 vs 按量计费:长上下文场景如何省 40 倍
"我充了 500 块,玩了一周就花光了"——群里这种抱怨每天能看到。
很多新手以为"用得多花得多"是天经地义的事。但是长上下文场景下,选错计费模式可能让你的成本暴涨 40 倍。
这一篇讲清楚两种主流计费方式,以及什么时候该选哪种。
我自己也是踩了一次"长上下文按量爆账单"的坑,才回头研究按次计费的。
两种主流计费方式
按量计费(Pay-as-you-go)
主流方式。按你实际用了多少 token 收费:
- 输入 token:每百万 token 的单价从极便宜(Flash 系几毛钱)到旗舰款(几美元到十几美元)不等
- 输出 token:通常是输入价格的 5-10 倍,这是行业通行规则
优点:
- 用多少花多少
- 短对话、试水阶段成本低
缺点:
- 长对话成本爆炸式增长
- 输出价格远高于输入,容易超预期
- 长文档分析时单次费用可能上百块
按次计费(Per-request / Subscription)
每次 API 调用收一个固定费用,不管你的对话多长、token 多少:
- 国内中转平台常见: ¥0.5 - ¥5 / 次
- 企业定制: $0.1 - $2 / 次
优点:
- 成本完全可预测
- 长上下文 / 长文档性价比恐怖
- Agent 工作流(单次任务输出几万 token)成本极低
缺点:
- 短对话不划算(几十字也是一次)
- 选项相对少(不是每个中转商都提供)
长上下文为什么按次更划算
来一个真实例子算账。
场景:分析一份 100 万字的文档(约 75 万 tokens)
按量计费(以主流旗舰为例):
- 输入:75 万 tokens(中端档单价下,大约几块到十几块人民币)
- 输出: 假设输出 5 万 tokens × 中端档输出价 × 5 万 tokens(几块)
- 实际总成本(按汇率): 约 ¥10-15
听起来不贵?但这只是一次分析。如果你做的是连续对话:
- 第二轮:输入变成 80 万 tokens(累积),输出 5 万
- 第三轮:输入变成 85 万 tokens,输出 5 万
- 第十轮:输入已经 120 万 tokens
- ...
到第二十轮累计花费可能 ¥126+。
按次计费:
- 每次调用 ¥3
- 二十轮 = ¥60
- 即使一百轮 = ¥300
长上下文 + 多轮对话场景下,按次比按量便宜 5-40 倍。
五个按次更优的场景
1. 成本可预测性
按次计费每次都是固定钱,月底账单不会爆雷。 按量计费可能一次失误烧掉一大笔。
2. 边际成本归零
某些模型在 token 数量超过分界点(如 200K)后,按量单价会翻倍。 按次计费没有这个问题——越长越划算。
3. Agent 任务优势
自主 Agent 一次任务可能生成数万 token 的中间推理。 按量:一次任务可能 ¥10-30。 按次:固定 ¥3-5。 Agent 大量场景下成本降低 80%+。
4. 缓存机制失效时的保障
许多按量计费的模型有"上下文缓存"(命中后输入费用打折)。 但首次处理新文档没有缓存,要全额付费。 按次计费没这个区别,首次和重复都一个价。
5. 企业预算友好
固定月费 + 按次套餐便于成本规划。 按量计费容易出现"突发大额账单",财务难做预算。
怎么判断该选哪种
选按量计费(标准模式)
- 主要做短对话(每次 ≤ 10K tokens)
- 总用量较低(每月 < 100 美元)
- 不做长文档分析
- 偶尔玩玩,没固定使用模式
→ 推荐渠道:任何主流中转商。
选按次计费
- 经常做长文档分析(单次 ≥ 100K tokens)
- 跑 Agent 工作流(自动化任务)
- 长篇连续对话(累积 ≥ 50 万 tokens)
- 需要稳定的月度预算
→ 推荐渠道:支持按次计费的中转商(国内有几家专做这个,搜"按次计费 Claude"或"按次计费 Gemini")。
一个实际的决策树
你的单次对话 token 通常多少?
├─ ≤ 10K(普通聊天) │ └─ 选按量。Gemini Flash / DeepSeek V4-Flash 最经济 │ ├─ 10K - 100K(中等长度) │ └─ 选按量。Claude Sonnet 或 Gemini Pro 都不错 │ └─ ≥ 100K(长上下文) ├─ 偶尔(每月 < 5 次) │ └─ 按量也行,但要心理准备好账单 └─ 经常(每月 > 10 次) └─ 必须选按次计费!成本省一个数量级
一些反直觉的事实
"便宜的模型 + 按量" 不一定比 "贵模型 + 按次" 便宜
举例:你用 DeepSeek V4(超便宜)做长上下文对话:
- 按量计费:单次 ¥1
- 但你聊 100 轮 = ¥100
同样的场景用 Claude Sonnet(贵)+ 按次计费:
- 按次:每次 ¥3
- 100 轮 = ¥300
看起来 DeepSeek 便宜?但 DeepSeek 上下文累积到几十万 token 时,单次成本会从 ¥1 涨到 ¥10-20。
最后两者其实差不多——但 Claude Sonnet 文笔好得多。
"按量计费的'缓存优惠' 不一定救你"
很多按量计费平台主打"输入缓存命中只需 25% 价格"。 听起来美好,但前提是:你聊的内容跟之前命中。
实际上做角色扮演时:
- 每条新消息都会改变上下文
- 缓存命中率低
- 全价输入的概率很高
别因为"缓存优惠"就放心选按量——具体场景具体算。
我自己的方案
选模型本身见 《2026 主流 AI 模型横评》,这里只讲计费选型。
- 日常聊天(每次 < 30K tokens):用按量计费的中端模型(Gemini Pro / Claude Sonnet),成本可控
- 长篇连载(累积 50K+ tokens):切按次计费渠道,无上限
- 批量任务 / 翻译:用 DeepSeek V4-Flash 或 Gemini Flash-Lite(按量,极便宜)
一句结语
计费模式的选择,有时比模型选型更影响你的钱包。
短对话玩家——按量,选便宜模型。 长上下文玩家——按次,质量优先。