国家网信办等四部门联合印发《人工智能大模型训练数据安全合规指引(试行)》:首次明确‘数据溯源链’强制嵌入要求

2026-05-17 17:44 👁 67646

2026年5月17日,国家网信办、工业和信息化部、国家数据局、公安部联合印发《人工智能大模型训练数据安全合规指引(试行)》(以下简称《指引》),自发布之日起施行。这是全球首个针对大模型全周期训练数据流出台的跨部门强制性操作指南,填补了《生成式人工智能服务管理暂行办法》在底层数据治理环节的实施空白。《指引》首次提出‘训练数据溯源链’(Training Data Provenance Chain, TDPC)概念,要求所有面向公众提供服务的千亿参数级以上大模型,必须在模型备案时同步提交结构化溯源档案,涵盖数据来源类型(公开网页/授权语料/合成数据)、原始采集时间戳、清洗脱敏日志、版权归属声明及第三方审计报告四项核心要素。

《指引》明确划定三类“高风险数据禁区”:未经单独明示同意的个人生物特征衍生文本、以爬虫方式批量抓取的动态交互日志(如APP内用户实时输入缓存)、以及未获原始权利人书面授权的出版物数字化全文。尤为关键的是,《指引》创设“数据影响评估(DIA)”前置机制——模型方须在预训练启动前30日向属地网信部门提交DIA报告,重点说明对新闻真实性、历史叙述一致性、少数民族语言文化表达等社会公共利益维度的潜在扰动风险,并附具缓解方案。

行业影响立竿见影。多家头部AI企业已紧急暂停部分境外开源语料库的接入流程。某国有大行旗下金融大模型项目负责人透露,其原定于5月20日上线的多模态投研助手因无法在72小时内完成TDPC建档,被迫延期;而专注政务垂域的初创公司则表示,依托《指引》中‘政务公开数据白名单’通道,其地方政策解读模型获得加急备案资格。法律界普遍认为,《指引》实质将数据合规责任从平台方延伸至模型开发者与算力提供商两端,倒逼产业链重构数据采购—清洗—标注—验证闭环。

未来展望方面,《指引》预留制度接口:第六章明确提出“探索基于区块链的分布式数据存证试点”,并授权长三角、粤港澳两大AI创新高地于2026年三季度启动首批TDPC链上存证沙盒。专家指出,该《指引》不仅是技术监管工具,更是中国参与全球AI治理规则制定的关键落子——其首创的‘可验证溯源链’范式,正被ISO/IEC JTC 1/SC 42人工智能分委会纳入下一轮国际标准修订议题草案。随着6月起全国网信系统专项执法检查启动,AI产业正加速从‘算力军备竞赛’转向‘数据治理能力比拼’新阶段。