蚂蚁集团F2LM-v2开源横扫11项榜单,‘小模型时代’宣告全面来临

2026-04-02 19:53 👁 阅读

2026年3月26日,蚂蚁集团正式开源全尺寸F2LM-v2(Fast-Flexible Large Model v2)系列模型,涵盖1.3B、7B、13B三种参数规模,在权威评测榜单中狂揽11项第一:包括中文理解评测C-MMLU(92.4%)、代码生成HumanEval(83.6%)、金融合规问答FinQA(89.1%)、多跳推理HotpotQA(85.7%)及端侧语音唤醒词识别WER(2.1%)等。尤为震撼的是,其13B版本在A100显卡上推理速度达158 token/s,仅为同性能Llama-3-70B的1/12显存占用,且支持FP8量化后在骁龙X Elite芯片上实时运行。开源即附带完整训练代码、全量LoRA微调权重及企业级部署手册,被Hugging Face社区誉为‘迄今最易商用的开源大模型’。

F2LM-v2的成功绝非偶然,而是蚂蚁对AI发展范式深刻反思的产物。面对GPT-5等千亿模型带来的算力黑洞与碳排放压力,蚂蚁提出‘精准匹配’原则:针对不同场景选择最优模型粒度——客服对话用1.3B模型保障毫秒级响应,风控决策用7B模型平衡精度与可解释性,跨境支付合规审查则调用13B模型确保法律条文理解深度。其创新的‘动态MoE’架构允许单模型内不同层自动激活不同专家子网,使13B模型实际推理成本接近7B水平。

这一开源行动正在重塑行业格局。国内银行、券商、保险机构已批量接入F2LM-v2替代原有私有模型,某股份制银行透露,其信用卡反欺诈系统迁移后,GPU集群能耗下降61%,模型迭代周期从45天压缩至7天;国际上,东南亚电子钱包Grab亦宣布将其本地化语言模型替换为F2LM-v2-7B。更深远的影响在于,它推动‘端云协同’成为新标准:F2LM-v2提供统一API,允许手机APP调用云端大模型处理复杂任务,同时将高频查询(如余额查询、转账确认)下沉至端侧小模型执行,真正实现‘该重则重,该轻则轻’。正如《德勤2026年AI现状报告》所断言:‘模型大小本身已失去比较意义,场景适配效率才是新时代的算力货币。’