大模型 API 调用成本计算器在线估算工具

工具介绍

大模型 API 按 token 计费，输入和输出单价差异显著，prompt caching 还能再打折扣。本工具内置 OpenAI、Anthropic、Google、DeepSeek、通义千问等主流模型的 2026 年公开报价，支持自定义单价、缓存命中率、调用频次和汇率换算，实时估算单次、每日、月度和年度成本，并拆分输入/输出占比，帮你定位真正吃钱的那块，提前规划 AI 产品预算。

使用方法

选择模型厂商与具体模型（系统自动填入官方报价）。
填写单次调用的输入 tokens 和输出 tokens。
输入预计每日调用次数（按产品 DAU × 人均调用数估算）。
如果使用 Anthropic 或 OpenAI 的缓存特性，调整缓存命中率百分比。
根据需要手动覆盖输入/输出单价（例如自托管、批量折扣或新模型）。
调整美元兑人民币汇率，结果区实时更新单次/日/月/年成本及输入输出占比。

计算公式

单次输入成本 USD = 输入 tokens × (1 - 缓存命中率 × (1 - 命中部分计价倍数)) × 输入单价 ÷ 1,000,000；单次输出成本 USD = 输出 tokens × 输出单价 ÷ 1,000,000；单次调用成本 = 输入成本 + 输出成本；每日成本 = 单次成本 × 每日调用次数；月度成本 = 每日成本 × 30；年度成本 = 每日成本 × 365；CNY 成本 = USD 成本 × 美元兑人民币汇率。Anthropic prompt caching 命中部分按 0.1 倍计价（节省 90%），OpenAI cached input 按 0.5 倍计价（节省 50%），Google/DeepSeek/通义千问默认不启用缓存折扣。

常见场景

场景 1 · Chat 机器人（GPT-4o mini）

每日 10,000 次调用，每次输入 500 tokens、输出 800 tokens。GPT-4o mini 输入 0.15 美元/百万、输出 0.6 美元/百万。单次约 0.000555 美元，月度约 166.5 美元（按 7.2 汇率约 1,199 元人民币）。输出占比约 86%，提示「回复越精简越省钱」。

场景 2 · RAG 问答（Claude 3.5 Sonnet + 70% 缓存）

每次输入 50,000 tokens（含长文档）、输出 500 tokens，每日 1,000 次。未启用缓存时月度约 4,725 美元；开启 Anthropic prompt caching 且命中率 70%，月度降至约 1,958 美元，省 58.6%。

场景 3 · 国产模型（DeepSeek V3）对比

同样 1,000 输入 + 500 输出、每日 10,000 次，DeepSeek V3 月度约 246 美元（约 1,770 元），相比 GPT-4o（月约 825 美元）便宜约 70%。在对模型能力要求不极端的场景下，切换国产模型可大幅降本。

常见问题

Token 到底是什么？1000 tokens 大概等于多少汉字或英文单词？

Token 是大模型处理文本时的最小计费单位，由 tokenizer 切分得到。经验值：英文 1 token ≈ 4 个字符（约 0.75 个单词），中文 1 个汉字 ≈ 1.5 tokens。也就是说 1000 tokens 大约等于 750 个英文单词，或约 500-650 个汉字。不同模型的 tokenizer 略有差异，精确值建议用 OpenAI tiktoken、Anthropic 官方 tokenizer 等工具测量。

为什么同样长度的中文和英文，token 数差距这么大？

主流 tokenizer（BPE/SentencePiece）在训练时英文语料占比远大于中文，因此英文常见词可以被压成 1 个 token，而很多汉字在词表外，会被拆成 2-3 个 subword token。所以同长度下中文 token 数往往是英文的 1.5-2 倍。最新的 Claude 3.5 与 Gemini 对中文支持更好，单字 token 消耗已明显下降，但整体上"中文更贵"仍是现实。

为什么大模型的输入单价和输出单价不一样，输出通常贵 3 到 5 倍？

输出 token 需要模型逐个自回归生成，每生成一个 token 都要跑一次完整 forward pass，并且无法批量并行；而输入 token 是一次性送进 prefill 阶段，GPU 利用率远高于 decode 阶段。推理成本的本质差异决定了输出必然更贵。典型比例：GPT-4o 输入/输出 = 1:4，Claude 3.5 Sonnet = 1:5，DeepSeek V3 = 1:4。所以在 RAG 场景（长输入短输出）成本会被输入主导，在 Chat/Agent 场景（短输入长输出）成本会被输出主导。

Anthropic prompt caching 和 OpenAI cached input 到底能省多少钱？什么场景值得开？

Anthropic 对命中的缓存部分按原价 10% 计费（节省 90%），但第一次写入缓存要按 1.25 倍额外付费；OpenAI 对命中部分按原价 50% 计费（节省 50%），首次写入不额外收费。适合场景：1) 系统 prompt/角色设定/长指令完全固定且重复率高；2) RAG 场景中召回到重复文档；3) Agent/Copilot 反复发送相同工具描述。经验阈值：缓存部分 ≥ 1024 tokens（Anthropic）或 ≥ 1024 tokens（OpenAI）且命中率 > 30% 通常稳定盈利。

怎么估算我的产品上线后一个月会花多少 API 费用？应该按什么口径预留预算？

三步法：1) 估算 DAU，再估每个活跃用户日均调用次数（Chat 类通常 5-15 次/天，Copilot 类 30-100 次/天，Agent 自主跑任务 100-500 次/天）；2) 实测一轮典型会话的输入/输出 token（用 tiktoken 或官方 tokenizer 跑 50 条历史 log 取中位数）；3) 代入本工具得到月度成本，再乘 1.5-2 倍作为预算缓冲（实际使用常有 50-100% 超标，长 prompt、重试、流式生成异常都会推高用量）。上线后每周对账实际 billing，差距大于 15% 就要定位原因。

国内模型（DeepSeek、通义千问、豆包、Kimi）和海外模型（GPT、Claude、Gemini）在成本上怎么选？

价位上 DeepSeek V3 / 通义千问 Plus / 豆包 Pro / Kimi 通常比 GPT-4o 便宜 3-10 倍，比 Claude 3.5 Sonnet 便宜 5-15 倍。选型建议：1) 中文为主、需求是摘要/分类/客服/RAG → 国产性价比极高；2) 复杂 reasoning、代码生成、多模态、长上下文 → 仍首选 Claude 3.5 Sonnet 或 GPT-4o；3) 对数据合规要求高（数据不能出境）→ 必须选国内模型；4) 面向海外用户的产品 → 海外模型 API 延迟更低。建议混合使用：简单任务走国产，难任务走海外，用本工具分别估算两侧月度成本做 A/B。

批量调用 API 能拿到折扣吗？OpenAI Batch API 和各家的批量定价分别是怎样的？

OpenAI Batch API 对输入和输出都打 5 折（50% off），但要求 24 小时内返回，不适合实时场景；Anthropic Batch API 同样 5 折，24 小时窗口；Google Gemini 1.5 Pro 的 batch 价格为实时价的 50%；DeepSeek、通义千问对 offline 批处理会给到 40-60% 折扣（需走官方 BU 洽谈）。适合批量走 Batch 的场景：数据清洗、日志摘要、embedding 生成、离线评测。注意：Batch 额度有限、偶发 partial failure，上生产前先小规模跑通，并在本工具里把单价手动改成 0.5 倍原价估算月度成本。

为什么我用工具算出来的成本和实际账单有差距？哪些隐性成本没被计入？

常见隐性成本：1) 重试——网络错误/超时触发自动重试，实际 tokens 消耗 1.2-2 倍；2) 流式输出异常——客户端断开但服务端已生成完 tokens，照收费；3) 工具调用/function calling 的中间输出 tokens；4) 系统 prompt 和角色描述没计入统计；5) 输入被模型截断后重发导致浪费；6) 多模态请求（图片/音频）按分辨率或秒数单独计费；7) 日志或分析工具把 prompt 多次发给模型做质检。建议在生产侧埋点记录每次请求的实际 prompt_tokens 和 completion_tokens（所有主流 API 都会在 response.usage 返回），按周对比本工具估算值，差距 > 15% 就要排查。