谷歌更新Gemini API定价按推理使用分档计费

您当前的位置: 首页 > 首页 > 新闻中心

发布时间：2026-04-03 18:00:17

谷歌更新Gemini API定价按推理使用分档计费(图1)

谷歌近日更新 Gemini API 计费档位，核心变化是围绕不同推理需求，新增并细分了标准、弹性、优先、批量和缓存五类服务方案：其中弹性和批量档位主打低成本，价格均为标准费率五折，但分别对应分钟级和最长 24 小时的延迟；优先档位则以更高价格换取毫秒至秒级响应，适用于高实时性业务；缓存档位则按缓存 Token 数量和存储时长计费，更适合复杂对话、长视频复用分析和大规模文档查询等场景。整体来看，这次调整的本质，是让 Gemini API 的计费与实际推理场景更加匹配。

财联社 4 月 3 日电，谷歌近日对 Gemini API 的计费档位进行更新，优化后的方案与定价均基于实际推理使用需求制定。本次新增并细分的推理服务档位包括：标准（Standard）、弹性（Flex）、优先（Priority）、批量（Batch）和缓存（Caching）版。

其中，弹性推理档位主要通过利用非高峰时段的闲置算力资源，为用户提供更低成本的调用选择。该档位价格为标准费率的五折，目标延迟为 1 至 15 分钟，但不提供延迟保证，更适合对时效性要求不高、但对成本较为敏感的使用场景。

批量 API 档位同样提供标准价格五折优惠，但可容忍的延迟更长，最长可达 24 小时。这意味着，它更适合离线处理、大规模批量生成、集中式分析等任务，而不适用于需要即时反馈的应用。

缓存档位则采用与前几类不同的计费模式，主要依据缓存词元（Token）数量以及存储时长收费。谷歌建议，这一方案适合用于搭载复杂系统指令的对话机器人、长视频文件的重复分析，以及面向大规模文档集的查询类应用。对于这类需要反复调用相同上下文内容的场景，缓存方案能够在一定程度上提升效率并优化整体成本。

与低价方案相对应的是优先档位。该档位定价较标准价格高出 75% 至 100%，但能够将延迟控制在毫秒至秒级，更适用于对时效性和稳定性要求极高的业务场景。谷歌建议，优先档位可用于实时客服聊天机器人、实时欺诈检测，以及业务关键型智能助手等应用。

整体而言，谷歌此次对 Gemini API 计费档位的调整，并不是简单增加几个价格选项，而是进一步细化不同推理需求下的服务层级。低成本方案面向可容忍延迟的任务，高优先级方案服务于实时关键业务，而缓存机制则为高复用上下文场景提供了新的优化路径。对于开发者和企业用户来说，这意味着在控制成本、保障性能和匹配业务需求之间，将拥有更灵活的选择空间。

变量名不存在 {/eyou:field}

上一篇 : 京东与荣耀签署战略合作协议明确未来三年全渠道销售目标破千亿元

下一篇 : 与辉同行年内再次带货“翻车”，回应称“先行垫付、全额退款”，律师称消费者有权“退一赔三”

谷歌更新Gemini API定价 按推理使用分档计费

相关推荐

谷歌更新Gemini API定价按推理使用分档计费