
谷歌近日更新 Gemini API 计费档位,核心变化是围绕不同推理需求,新增并细分了标准、弹性、优先、批量和缓存五类服务方案:其中弹性和批量档位主打低成本,价格均为标准费率五折,但分别对应分钟级和最长 24 小时的延迟;优先档位则以更高价格换取毫秒至秒级响应,适用于高实时性业务;缓存档位则按缓存 Token 数量和存储时长计费,更适合复杂对话、长视频复用分析和大规模文档查询等场景。整体来看,这次调整的本质,是让 Gemini API 的计费与实际推理场景更加匹配。
财联社 4 月 3 日电,谷歌近日对 Gemini API 的计费档位进行更新,优化后的方案与定价均基于实际推理使用需求制定。本次新增并细分的推理服务档位包括:标准(Standard)、弹性(Flex)、优先(Priority)、批量(Batch)和缓存(Caching)版。
其中,弹性推理档位主要通过利用非高峰时段的闲置算力资源,为用户提供更低成本的调用选择。该档位价格为标准费率的五折,目标延迟为 1 至 15 分钟,但不提供延迟保证,更适合对时效性要求不高、但对成本较为敏感的使用场景。
批量 API 档位同样提供标准价格五折优惠,但可容忍的延迟更长,最长可达 24 小时。这意味着,它更适合离线处理、大规模批量生成、集中式分析等任务,而不适用于需要即时反馈的应用。
缓存档位则采用与前几类不同的计费模式,主要依据缓存词元(Token)数量以及存储时长收费。谷歌建议,这一方案适合用于搭载复杂系统指令的对话机器人、长视频文件的重复分析,以及面向大规模文档集的查询类应用。对于这类需要反复调用相同上下文内容的场景,缓存方案能够在一定程度上提升效率并优化整体成本。
与低价方案相对应的是优先档位。该档位定价较标准价格高出 75% 至 100%,但能够将延迟控制在毫秒至秒级,更适用于对时效性和稳定性要求极高的业务场景。谷歌建议,优先档位可用于实时客服聊天机器人、实时欺诈检测,以及业务关键型智能助手等应用。
整体而言,谷歌此次对 Gemini API 计费档位的调整,并不是简单增加几个价格选项,而是进一步细化不同推理需求下的服务层级。低成本方案面向可容忍延迟的任务,高优先级方案服务于实时关键业务,而缓存机制则为高复用上下文场景提供了新的优化路径。对于开发者和企业用户来说,这意味着在控制成本、保障性能和匹配业务需求之间,将拥有更灵活的选择空间。