Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

美东时间3月3日，谷歌DeepMind正式推出Gemini 3.1 Flash-Lite轻量化大模型，以预览版形式向开发者和企业用户开放。该模型聚焦高性价比与高速响应，专为大规模高频工作负载设计，在控制成本的同时实现性能突破，直指当前大模型行业“重性能、高成本”的痛点，进一步加剧通用大模型领域的市场竞争。

作为Gemini 3系列的新成员，Flash-Lite的核心优势集中在性价比与速度上。定价方面，其每百万输入token仅0.25美元、输出token1.50美元，仅为大型模型的一小部分，大幅降低开发者和企业的规模化部署成本。速度上，该模型首个答案响应时间较上一代Gemini 2.5 Flash提升2.5倍，输出速度提升45%，最高可达363 tokens/s，实现近乎瞬时输出的体验。

轻量化不代表性能缩水。该模型支持100万token上下文窗口和多模态输入，在Arena.ai排行榜获得1432的Elo评分，多项推理与多模态测试成绩超越同级别模型，甚至优于上一代体量更大的Gemini模型。其独特的“思考层级”调节功能，可让开发者根据任务复杂度灵活调整推理深度，兼顾成本与质量。

目前，该模型可通过谷歌AI Studio的API接入，企业用户可通过谷歌云Vertex AI平台使用，无需特殊硬件配置。已有Latitude、Cartwheel等企业在早期测试中反馈，其指令遵循能力和处理速度表现突出，能有效提升批量任务处理效率。在电商、内容审核等高频场景中，该模型可快速完成商品标注、多语言翻译等任务，展现出强劲的实用价值。

Gemini 3.1 Flash-Lite的上线，填补了谷歌在高性价比轻量化模型领域的布局空白，也让大模型竞争从“性能竞赛”转向“性价比比拼”。面对OpenAI GPT-5.4的高成本争议和Anthropic Claude的价格优势，谷歌凭借该模型精准切入中小开发者和成本敏感型企业市场，进一步丰富行业选择，推动大模型技术向规模化、普惠化落地。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高