面壁智能发布ForgeTrain:全球首个完全由AI编写的生产级大模型预训练框架,开启AI自编程新纪元

2026-05-29 18:58 👁 44521

2026年5月29日,面壁智能联合清华大学THUNLP、OpenBMB等机构,在北京AI前沿峰会现场正式开源ForgeTrain——全球首个完全由AI自主编写、验证并部署的生产级大模型预训练框架。该框架不依赖人类工程师手动编码底层分布式逻辑,而是通过多智能体协同推理,基于硬件拓扑、算子特性与训练目标,实时生成高度定制化的训练代码。实测显示,其在华为昇腾910B集群上训练速度较昇腾原生PyTorch框架提升10%,且通信开销降低23%,首次实现国产AI基础设施对英伟达Megatron-LM的性能反超。

这一突破标志着AI研发范式从“人写代码→AI调参”迈入“AI造工具→AI训模型→AI优化AI”的闭环自演进阶段。据项目白皮书披露,ForgeTrain内部嵌入了三层自治系统:策略生成Agent(负责调度策略建模)、代码锻造Agent(执行C++/CUDA级代码合成与静态验证)、以及硬件感知Agent(实时采集NVLink带宽、HBM利用率等指标反馈重优化)。三者构成动态反馈环,在单次训练任务中可完成超17轮自动架构重构。

伴随ForgeTrain同步发布的MiniCPM5-1B,是首个完全由该框架从零训练出的端侧旗舰模型。该模型仅含10亿参数,却在MMLU、GPQA-Diamond、LiveCodeBench等8项权威基准中全面超越通义千问Qwen3.5-2B(参数量22亿),尤其在数学推理与代码生成任务上准确率高出11.3个百分点。其智能密度(Accuracy per Parameter)达行业新高,验证了“小模型+精框架”路径在算力受限场景下的可持续竞争力。

行业影响层面,ForgeTrain正迅速引发产业链级响应。华为已将其纳入昇腾AI生态重点适配对象;寒武纪宣布将为思元590芯片提供专用ForgeTrain编译插件;而更深远的是范式迁移——面壁智能提出“Forge Engineering”新编程哲学:拒绝通用框架的“均码主义”,主张AI为每类模型、每种硬件、每个任务现场锻造唯一最优代码。这或将终结过去十年以Megatron、DeepSpeed为代表的“大一统框架”时代。

未来展望上,团队透露ForgeTrain v2将于Q3上线,将支持跨芯片异构训练(如昇腾+寒武纪混合集群)及自动微架构适配(如针对B100的Tensor Core重映射)。NBER最新研究指出,当AI自编程渗透率达13%,整个AI研发效率将触发指数级跃迁。随着ForgeTrain进入主流云厂商训练栈,2026年下半年有望见证首批“全AI流水线”量产大模型涌现——它们不再由人类定义架构,而是由前代AI共同投票演化而来。这场静默却彻底的革命,正把AGI的工程门槛,从博士军团拉回GPU集群本身。