中国工信部发布《生成式AI服务安全评估指南(试行)》,首次明确多轮对话内容溯源与责任认定标准
【背景】
随着大模型应用在政务、金融、教育等关键领域加速渗透,由幻觉输出、偏见放大及恶意诱导引发的安全事件呈上升趋势。2024年上半年,全国AI投诉平台共受理涉生成式AI纠纷12,743起,其中61.3%涉及多轮对话中上下文逻辑断裂导致的误导性结论(如法律咨询中混淆‘缓刑’与‘假释’适用条件)。现有监管框架多聚焦单次输入输出合规,缺乏对对话状态演化、记忆篡改及跨会话意图漂移等动态风险的评估手段,亟需建立可量化、可审计的技术治理标准。
【动态】
2024年7月25日,工业和信息化部联合国家网信办、公安部印发《生成式人工智能服务安全评估指南(试行)》,自2024年8月1日起实施。该指南首次提出‘对话链路完整性’强制要求:所有面向公众的生成式AI服务必须部署轻量级对话指纹模块(Dialog Fingerprinting Module),对每轮交互生成唯一哈希标识,并支持按用户ID+时间戳双向追溯全部上下文快照。同时,明确‘责任穿透原则’——当模型输出引发实质损害时,服务提供方须在48小时内提供包含原始提示词、系统角色设定、知识库调用日志及置信度评分的全要素审计包。首批纳入评估的包括文心一言4.5、通义千问Qwen2-72B及Kimi Chat等17款主流产品。
【影响】
新规迅速推动产业技术升级。百度已上线‘对话可信中心’,用户可一键查看任意历史问答的溯源凭证及风险评级;讯飞星火宣布将对话记忆存储周期从默认30天延长至180天以满足审计要求。但部分中小企业反映合规成本高企——部署符合国密SM4加密标准的溯源模块平均增加服务器开销23%,且需重构对话管理中间件。更值得关注的是,指南要求对‘未成年人保护模式’下的对话流实施独立沙箱隔离与强化过滤,倒逼厂商投入专项算法研发,如智谱AI已启动‘青藤计划’专项攻关青少年心理敏感话题的多轮对话稳态控制。
【展望】
该指南被视为中国AI治理体系从‘底线监管’迈向‘过程治理’的关键一步。国际标准化组织(ISO)已启动AI对话安全标准立项,中方专家团队正牵头编制‘多轮交互可追溯性’技术白皮书。业内预测,2025年起,对话溯源能力或成为AI服务政府采购的强制准入指标。长远看,随着区块链存证与零知识证明技术的融合应用,‘不可篡改的AI对话账本’有望成为数字身份基础设施的一部分。而如何平衡监管刚性与创新弹性,将在后续细则修订中持续考验治理智慧。