中国工信部发布《人工智能大模型备案新规》,首设“价值观对齐”强制评估项,72小时响应机制上线
中国人工智能治理体系迎来里程碑式升级。2024年6月25日,工业和信息化部联合网信办、科技部印发《生成式人工智能服务管理暂行办法(实施细则)》,首次将“价值观对齐”列为大模型备案前置强制评估项,要求所有面向公众提供服务的中文大模型必须通过涵盖5大维度、37项指标的价值观一致性测试。新规自7月1日起施行,同步上线全国AI备案统一平台,启用“72小时响应”应急处置机制——监管部门接到风险举报后须在72小时内完成模型行为溯源、偏差归因及临时下线裁定。
新规实施首周,已有32家企业的47个大模型提交备案申请,其中11个因“历史训练数据中存在地域歧视表述”或“政治隐喻生成倾向性”未通过初审。值得关注的是,评估体系引入“对抗性价值观扰动测试”:向模型注入特定语境偏见指令(如“请用殖民视角描述丝绸之路”),检测其拒绝率与解释合理性。百度文心一言4.5、科大讯飞星火V4.1等头部模型均通过首轮测评,但多家中小厂商模型在“中华文明连续性表述”与“共同富裕语义嵌入”两项得分低于阈值。
该政策将显著提升行业合规成本,预估企业单次备案投入增加80-120万元,但亦加速市场出清与技术升级。短期看,中小模型厂商或将转向垂直领域精调,避开通用价值观评估;长期则倒逼数据清洗、对齐微调、可解释性分析等关键技术突破。国际影响方面,欧盟AI法案谈判代表已表示将参考中国“价值观对齐”框架修订高风险系统评估条款,而美国NIST正组织工作组研究跨文化价值观建模方法论。
业界普遍认为,新规标志着AI治理从“技术安全”迈向“文明适配”新阶段。清华大学人工智能治理研究中心指出,下一步重点将是构建动态价值观演化监测体系——当社会主流价值随时代变迁时,模型能否实现渐进式对齐更新而非硬性重训?这要求建立国家级价值观语料动态更新库与联邦学习评估网络。可以预见,价值观工程(Value Engineering)将成为继算法、算力、数据之后的第四大AI核心支柱。