大模型 API 调用成本计算器在线估算工具
在线估算 GPT、Claude、Gemini、DeepSeek、通义千问等大模型 API 调用成本,支持输入输出 token 分项计价、prompt caching 折扣与人民币换算,帮助 AI 产品团队精准预估每月 API 账单与优化空间。
工具介绍
大模型 API 按 token 计费,输入和输出单价差异显著,prompt caching 还能再打折扣。本工具内置 OpenAI、Anthropic、Google、DeepSeek、通义千问等主流模型的 2026 年公开报价,支持自定义单价、缓存命中率、调用频次和汇率换算,实时估算单次、每日、月度和年度成本,并拆分输入/输出占比,帮你定位真正吃钱的那块,提前规划 AI 产品预算。
使用方法
- 选择模型厂商与具体模型(系统自动填入官方报价)。
- 填写单次调用的输入 tokens 和输出 tokens。
- 输入预计每日调用次数(按产品 DAU × 人均调用数估算)。
- 如果使用 Anthropic 或 OpenAI 的缓存特性,调整缓存命中率百分比。
- 根据需要手动覆盖输入/输出单价(例如自托管、批量折扣或新模型)。
- 调整美元兑人民币汇率,结果区实时更新单次/日/月/年成本及输入输出占比。
计算公式
单次输入成本 USD = 输入 tokens × (1 - 缓存命中率 × (1 - 命中部分计价倍数)) × 输入单价 ÷ 1,000,000;单次输出成本 USD = 输出 tokens × 输出单价 ÷ 1,000,000;单次调用成本 = 输入成本 + 输出成本;每日成本 = 单次成本 × 每日调用次数;月度成本 = 每日成本 × 30;年度成本 = 每日成本 × 365;CNY 成本 = USD 成本 × 美元兑人民币汇率。Anthropic prompt caching 命中部分按 0.1 倍计价(节省 90%),OpenAI cached input 按 0.5 倍计价(节省 50%),Google/DeepSeek/通义千问默认不启用缓存折扣。
常见场景
场景 1 · Chat 机器人(GPT-4o mini)
每日 10,000 次调用,每次输入 500 tokens、输出 800 tokens。GPT-4o mini 输入 0.15 美元/百万、输出 0.6 美元/百万。单次约 0.000555 美元,月度约 166.5 美元(按 7.2 汇率约 1,199 元人民币)。输出占比约 86%,提示「回复越精简越省钱」。
场景 2 · RAG 问答(Claude 3.5 Sonnet + 70% 缓存)
每次输入 50,000 tokens(含长文档)、输出 500 tokens,每日 1,000 次。未启用缓存时月度约 4,725 美元;开启 Anthropic prompt caching 且命中率 70%,月度降至约 1,958 美元,省 58.6%。
场景 3 · 国产模型(DeepSeek V3)对比
同样 1,000 输入 + 500 输出、每日 10,000 次,DeepSeek V3 月度约 246 美元(约 1,770 元),相比 GPT-4o(月约 825 美元)便宜约 70%。在对模型能力要求不极端的场景下,切换国产模型可大幅降本。
常见问题
Token 到底是什么?1000 tokens 大概等于多少汉字或英文单词?
Token 是大模型处理文本时的最小计费单位,由 tokenizer 切分得到。经验值:英文 1 token ≈ 4 个字符(约 0.75 个单词),中文 1 个汉字 ≈ 1.5 tokens。也就是说 1000 tokens 大约等于 750 个英文单词,或约 500-650 个汉字。不同模型的 tokenizer 略有差异,精确值建议用 OpenAI tiktoken、Anthropic 官方 tokenizer 等工具测量。
为什么同样长度的中文和英文,token 数差距这么大?
主流 tokenizer(BPE/SentencePiece)在训练时英文语料占比远大于中文,因此英文常见词可以被压成 1 个 token,而很多汉字在词表外,会被拆成 2-3 个 subword token。所以同长度下中文 token 数往往是英文的 1.5-2 倍。最新的 Claude 3.5 与 Gemini 对中文支持更好,单字 token 消耗已明显下降,但整体上"中文更贵"仍是现实。
为什么大模型的输入单价和输出单价不一样,输出通常贵 3 到 5 倍?
输出 token 需要模型逐个自回归生成,每生成一个 token 都要跑一次完整 forward pass,并且无法批量并行;而输入 token 是一次性送进 prefill 阶段,GPU 利用率远高于 decode 阶段。推理成本的本质差异决定了输出必然更贵。典型比例:GPT-4o 输入/输出 = 1:4,Claude 3.5 Sonnet = 1:5,DeepSeek V3 = 1:4。所以在 RAG 场景(长输入短输出)成本会被输入主导,在 Chat/Agent 场景(短输入长输出)成本会被输出主导。
Anthropic prompt caching 和 OpenAI cached input 到底能省多少钱?什么场景值得开?
Anthropic 对命中的缓存部分按原价 10% 计费(节省 90%),但第一次写入缓存要按 1.25 倍额外付费;OpenAI 对命中部分按原价 50% 计费(节省 50%),首次写入不额外收费。适合场景:1) 系统 prompt/角色设定/长指令完全固定且重复率高;2) RAG 场景中召回到重复文档;3) Agent/Copilot 反复发送相同工具描述。经验阈值:缓存部分 ≥ 1024 tokens(Anthropic)或 ≥ 1024 tokens(OpenAI)且命中率 > 30% 通常稳定盈利。
怎么估算我的产品上线后一个月会花多少 API 费用?应该按什么口径预留预算?
三步法:1) 估算 DAU,再估每个活跃用户日均调用次数(Chat 类通常 5-15 次/天,Copilot 类 30-100 次/天,Agent 自主跑任务 100-500 次/天);2) 实测一轮典型会话的输入/输出 token(用 tiktoken 或官方 tokenizer 跑 50 条历史 log 取中位数);3) 代入本工具得到月度成本,再乘 1.5-2 倍作为预算缓冲(实际使用常有 50-100% 超标,长 prompt、重试、流式生成异常都会推高用量)。上线后每周对账实际 billing,差距大于 15% 就要定位原因。
国内模型(DeepSeek、通义千问、豆包、Kimi)和海外模型(GPT、Claude、Gemini)在成本上怎么选?
价位上 DeepSeek V3 / 通义千问 Plus / 豆包 Pro / Kimi 通常比 GPT-4o 便宜 3-10 倍,比 Claude 3.5 Sonnet 便宜 5-15 倍。选型建议:1) 中文为主、需求是摘要/分类/客服/RAG → 国产性价比极高;2) 复杂 reasoning、代码生成、多模态、长上下文 → 仍首选 Claude 3.5 Sonnet 或 GPT-4o;3) 对数据合规要求高(数据不能出境)→ 必须选国内模型;4) 面向海外用户的产品 → 海外模型 API 延迟更低。建议混合使用:简单任务走国产,难任务走海外,用本工具分别估算两侧月度成本做 A/B。
批量调用 API 能拿到折扣吗?OpenAI Batch API 和各家的批量定价分别是怎样的?
OpenAI Batch API 对输入和输出都打 5 折(50% off),但要求 24 小时内返回,不适合实时场景;Anthropic Batch API 同样 5 折,24 小时窗口;Google Gemini 1.5 Pro 的 batch 价格为实时价的 50%;DeepSeek、通义千问对 offline 批处理会给到 40-60% 折扣(需走官方 BU 洽谈)。适合批量走 Batch 的场景:数据清洗、日志摘要、embedding 生成、离线评测。注意:Batch 额度有限、偶发 partial failure,上生产前先小规模跑通,并在本工具里把单价手动改成 0.5 倍原价估算月度成本。
为什么我用工具算出来的成本和实际账单有差距?哪些隐性成本没被计入?
常见隐性成本:1) 重试——网络错误/超时触发自动重试,实际 tokens 消耗 1.2-2 倍;2) 流式输出异常——客户端断开但服务端已生成完 tokens,照收费;3) 工具调用/function calling 的中间输出 tokens;4) 系统 prompt 和角色描述没计入统计;5) 输入被模型截断后重发导致浪费;6) 多模态请求(图片/音频)按分辨率或秒数单独计费;7) 日志或分析工具把 prompt 多次发给模型做质检。建议在生产侧埋点记录每次请求的实际 prompt_tokens 和 completion_tokens(所有主流 API 都会在 response.usage 返回),按周对比本工具估算值,差距 > 15% 就要排查。
相关工具
颜色转换器 · HEX RGB HSL 三向互转
在线颜色格式互转工具,支持 HEX / RGB / HSL 三种颜色表示法相互转换,输入任一进制另两种自动同步,并实时预览色块。全部在浏览器本地完成,不会上传任何数据。
JSON 格式化器 · 美化 压缩 校验
在线 JSON 格式化 / 压缩 / 校验工具,支持自定义缩进、超大输入防卡顿、结构化错误提示。全部在浏览器本地完成,JSON 内容不会上传到任何服务器,敏感数据也能放心粘贴。
2026五一加班费计算器·逐日倍率速查
锁定2026年五一假期(5/1-5/5),逐日勾选加班日,自动区分法定假日3倍与调休2倍,实时计算每日及合计加班费,月薪按21.75天折算日薪,全程本地计算不上传数据。
住房公积金提取额度计算,覆盖7大城市6大场景
支持北京、上海、广州、深圳等7大城市,覆盖购房、还贷、租房、离职、大病、退休6大提取场景,智能计算可提取额度、所需材料与办理频次,助您快速了解公积金提取攻略。