常见计费单位
| 方式 | 典型服务 | 计量依据 |
|---|---|---|
| 按 Token | 文本生成、推理、Embedding | 输入与输出 Token 分别计价。 |
| 按次 | 图像生成、重绘、OCR、部分搜索 | 每次成功请求,可能再区分分辨率和质量。 |
| 按秒 | 短视频生成、语音合成、实时音频 | 生成或处理的有效时长。 |
| 按分钟 | 长音频转写、长视频处理 | 按总时长向上取整或精确计量。 |
语言模型成本公式
语言请求的基础成本通常为:
成本 = 输入 Token / 1,000,000 × 输入单价
+ 输出 Token / 1,000,000 × 输出单价如果平台设置渠道倍率或服务倍率,应在价格页面清晰展示最终单价或倍率,避免用户只能看到上游基础价。对于缓存 Token、推理 Token 和批处理折扣,应作为独立价格项记录。
图像与视频成本公式
图像成本可由请求次数、张数、分辨率、质量等级和编辑模式组成。视频成本通常由生成秒数、分辨率、帧率、是否包含音频以及模型档位决定。异步任务失败时,计费系统必须区分“已提交”“上游已扣费”“生成成功”和“已退款”等状态。
为什么必须保存价格快照
模型价格会变化。账单不能在查询时用最新价格反算历史请求,而应在请求执行时保存币种、计费单位、各项单价、倍率和最终金额。这样才能复核每一笔用量,并在价格更新后保持历史账单稳定。
余额、配额与预算控制
请求前可按最大输出估算费用并检查余额,请求后再按实际用量结算差额。企业账户还需要日预算、月预算、模型白名单、并发上限和异常用量提醒。对于视频等高成本任务,建议采用预授权或冻结余额,任务完成后结算。
“按量计费”不是一种完整的计费单位。前端应明确显示“输入 /1M Token”“每张”“每秒”或“每分钟”等可计算单位。
常见问题
- 为什么输入和输出 Token 价格不同?
- 生成输出通常占用更多推理资源,因此很多模型的输出单价高于输入单价。
- 失败请求是否收费?
- 取决于上游是否已经执行并产生用量。平台应公开规则,并在账单中显示退款或冲正记录。