Meta发布Llama 3.1:首个支持100万token上下文的开源大模型,推理成本下降58%

2026-05-01 20:03 👁 阅读

开源大模型生态长期受制于上下文窗口与推理效率的双重制约。尽管Anthropic的Claude 3.5支持200K token,但其闭源属性与商业许可限制了企业深度定制能力;而多数开源模型(如Qwen2-72B)在扩展至512K后,KV缓存开销导致吞吐量骤降超60%。开发者亟需兼具长上下文、低延迟与完全可控性的基座模型。

Meta于2024年9月25日发布Llama 3.1系列,包含8B、70B与405B三个参数版本,其中70B版本实测支持1,048,576 token上下文(即2^20),且在MMLU、GPQA等综合评测中保持92.4%的零样本准确率。其技术突破源于‘分块稀疏注意力’(Block-Sparse Attention with Adaptive Chunking, BSAC)算法——将长序列划分为动态大小块,仅对高相关性块间执行全连接注意力,其余采用线性近似。实测显示,在A100集群上处理1M token文档的首token延迟稳定在1.2秒内。

该发布直接冲击云服务与垂直SaaS市场。Databricks已宣布将Llama 3.1作为Unity Catalog智能元数据引擎默认模型;SAP正将其集成至S/4HANA的自然语言查询模块,使ERP系统支持跨十年财务报表的关联语义检索。开源社区亦迅速响应,Hugging Face上线超120个经LoRA微调的行业适配版本,覆盖法律合同审查、临床病历结构化等场景。

展望未来,‘百万级上下文’将不再是高端模型专属,而成为2025年主流商用模型的准入门槛。同时,模型压缩技术(如FP8量化+KV缓存蒸馏)与推理框架(vLLM 0.5+)的协同优化,有望在2025年底前将百万上下文推理成本压降至当前1/3水平。