国家网信办等十部门联合发布《生成式人工智能服务安全评估实施细则(试行)》:首次明确AI模型上线前强制‘红蓝对抗’测试要求
2026年5月17日,国家互联网信息办公室联合国家发展改革委、工业和信息化部、公安部、国家安全部、财政部、商务部、中国人民银行、国家市场监督管理总局、国家广播电视总局等十部门,正式印发《生成式人工智能服务安全评估实施细则(试行)》(以下简称《细则》),自发布之日起施行。这是继《生成式人工智能服务管理暂行办法》实施两年后,我国首部聚焦AI模型上线前准入环节的强制性操作规范,标志着AI监管从‘备案制’迈向‘实测准入制’新阶段。
《细则》明确,所有面向公众提供文本、图像、音视频、代码等生成服务的大模型及智能体应用,在完成算法备案后、正式上线运营前,必须通过由省级以上网信部门指定第三方机构组织的‘红蓝对抗’安全评估。评估内容涵盖幻觉抑制率、偏见触发阈值、多模态越狱成功率、指令注入鲁棒性、训练数据污染识别准确率等12项核心指标,并首次将‘对抗性提示扰动下的意图漂移率’列为一票否决项。
据参与起草的专家透露,该《细则》直指当前行业痛点——大量已备案模型在真实场景中频发价值观偏移、事实性错误与协同诱导风险,仅2026年一季度就有23款主流商用模型被用户投诉存在系统性输出偏差。新规要求评估结果须公示于‘国家生成式AI安全评估公共服务平台’,公众可实时查验模型是否通过‘红蓝对抗’测试及具体失分项,倒逼厂商从‘参数堆叠’转向‘安全内生’研发范式。
行业影响层面,《细则》将重塑AI产业链责任边界:模型方承担基础安全兜底责任,应用方须对提示工程与上下文约束做二次验证,云服务商需开放可观测接口供评估调用。多家头部大模型企业已在内部启动‘红队中心’建设计划,预计2026年内将催生超5000个专职AI安全对抗工程师岗位。
未来展望方面,《细则》同步提出‘分级弹性评估机制’:对教育、医疗、政务等高敏感领域模型实行全项强制测试;对创意辅助、娱乐交互类模型引入‘沙盒轻量版’,允许在限定流量与用户范围内先行试运行并动态补测。业内普遍认为,此举既守住安全底线,又为创新留出合理容错空间,有望成为全球首个兼顾AI治理刚性与敏捷性的制度样本。随着首批试点评估机构名单将于5月25日公示,中国AI产业正加速进入‘以攻促防、以测促治’的深水治理新周期。