美东时间3月3日,谷歌DeepMind正式推出Gemini 3.1 Flash-Lite轻量化大模型,以预览版形式向开发者和企业用户开放。该模型聚焦高性价比与高速响应,专为大规模高频工作负载设计,在控制成本的同时实现性能突破,直指当前大模型行业“重性能、高成本”的痛点,进一步加剧通用大模型领域的市场竞争。

作为Gemini 3系列的新成员,Flash-Lite的核心优势集中在性价比与速度上。定价方面,其每百万输入token仅0.25美元、输出token1.50美元,仅为大型模型的一小部分,大幅降低开发者和企业的规模化部署成本。速度上,该模型首个答案响应时间较上一代Gemini 2.5 Flash提升2.5倍,输出速度提升45%,最高可达363 tokens/s,实现近乎瞬时输出的体验。

轻量化不代表性能缩水。该模型支持100万token上下文窗口和多模态输入,在Arena.ai排行榜获得1432的Elo评分,多项推理与多模态测试成绩超越同级别模型,甚至优于上一代体量更大的Gemini模型。其独特的“思考层级”调节功能,可让开发者根据任务复杂度灵活调整推理深度,兼顾成本与质量。

目前,该模型可通过谷歌AI Studio的API接入,企业用户可通过谷歌云Vertex AI平台使用,无需特殊硬件配置。已有Latitude、Cartwheel等企业在早期测试中反馈,其指令遵循能力和处理速度表现突出,能有效提升批量任务处理效率。在电商、内容审核等高频场景中,该模型可快速完成商品标注、多语言翻译等任务,展现出强劲的实用价值。

Gemini 3.1 Flash-Lite的上线,填补了谷歌在高性价比轻量化模型领域的布局空白,也让大模型竞争从“性能竞赛”转向“性价比比拼”。面对OpenAI GPT-5.4的高成本争议和Anthropic Claude的价格优势,谷歌凭借该模型精准切入中小开发者和成本敏感型企业市场,进一步丰富行业选择,推动大模型技术向规模化、普惠化落地。