国家网信办等七部门联合发布《生成式人工智能服务安全评估指南(试行)》:首次明确AI内容风险分级与动态评估触发机制

2026-05-18 19:01 👁 15887

2026年5月18日,国家互联网信息办公室联合国家发展改革委、工业和信息化部、公安部、国家安全部、市场监管总局、广电总局正式印发《生成式人工智能服务安全评估指南(试行)》,自发布之日起施行。这是我国首份聚焦生成式AI服务全链路安全治理的操作性技术指南,填补了算法备案后‘如何评、何时评、评什么’的制度空白,标志着AI监管从‘合规准入’迈向‘运行风控’新阶段。

指南首次构建‘三级四维’风险识别框架:依据内容危害性(违法性、误导性、歧视性、隐私侵扰性)、生成场景(面向公众/特定群体/封闭系统)、服务规模(用户量、调用量、传播广度)及模型能力(多模态强度、推理深度、可控性水平),将生成式AI服务划分为低、中、高三级风险,并对应设定‘基础自查—季度抽检—实时熔断’三类评估强度。其中,对涉及医疗建议、司法文书、金融决策等高敏感场景的AI服务,明确要求部署‘双提示+双留痕’机制——即在用户输入前弹出风险告知,在输出结果旁嵌入可验证溯源水印,并同步上传至国家级AI行为审计平台。

值得关注的是,指南创新设立‘动态评估触发清单’,列明12类必须立即启动再评估的情形,包括:单日违规内容拦截率突增超300%、同一提示词引发连续5次以上事实性错误、模型更新后幻觉率上升超阈值、或接入第三方插件导致输出不可控扩展等。该机制打破‘一年一评’静态惯性,推动企业建立AI服务健康度实时仪表盘。据参与起草的中国信通院专家透露,首批覆盖新闻聚合、在线教育、政务问答三类平台的试点评估已于今日同步启动,评估结果将直接影响其算法备案状态有效性。

行业影响层面,指南倒逼技术厂商重构研发范式:大模型厂商需在训练阶段嵌入可解释性模块,应用层企业须配备专职AI风控官并接入国家监管接口;中小开发者可通过‘轻量级评估套件’(由网信办联合开源社区本周上线)完成自动化初筛。多位AI伦理研究员指出,该指南与欧盟《AI法案》强调的‘系统性风险监测’形成呼应,但更突出中国语境下的‘场景强耦合’与‘行为可追溯’特色。

未来展望方面,指南明确将探索‘评估即服务’(AaaS)模式,计划于2026年三季度开放国家级AI安全评估云平台,支持企业按需调用权威测试数据集、对抗样本库与偏见检测工具链。业内预计,该指南将加速催生AI治理SaaS赛道,并推动‘安全即竞争力’成为下一代智能体产品的核心卖点。随着评估标准与行政处罚细则的配套出台,生成式AI产业正从野蛮生长全面转入‘精耕细作’时代。