国家数据局:全国高质量数据集超10万个,达国家图书馆数字资源总量310倍
2026年3月24日,国家数据局在例行新闻发布会上宣布:截至2025年底,全国已建成高质量数据集超过10万个,总规模达2.1ZB(泽字节),相当于中国国家图书馆现有数字资源总量的310倍。这一里程碑式成果,标志着我国数据要素化进程进入‘精耕细作’新阶段——从早期追求数据‘量大’转向聚焦数据‘质优’,为大模型高质量训练、科学发现与产业智能化提供坚实底座。所谓‘高质量数据集’,国家数据局明确定义为:需同时满足‘四性’标准——来源权威性(须经省级以上主管部门认证)、标注专业性(由领域专家主导完成)、结构规范性(符合GB/T 39592-2026《人工智能训练数据集元数据规范》)、应用可溯性(完整记录采集目的、使用限制与更新日志)。目前已入库的10.2万个数据集中,农业遥感、工业设备传感器、中医药古籍数字化、城市交通流等垂直领域占比达68%,显著扭转了此前通用语料库‘一统天下’的失衡格局。
这一成就的背后,是国家级数据基础设施的系统性升级。国家数据局披露,依托‘东数西算’工程二期,已建成覆盖31个省份的‘高质量数据集协同治理平台’,实现跨域数据集的统一注册、质量评级、价值评估与合规流通。平台引入区块链存证技术,为每个数据集生成唯一‘数字身份证’,记录其全生命周期操作日志;更创新采用‘数据集健康度指数’(DSHI),从时效性、完整性、一致性、多样性四个维度进行动态评分,评分低于80分的数据集将触发自动预警并暂停推荐。例如,某省气象局提供的台风路径预测数据集,因2025年新增12类卫星观测维度,DSHI评分从76分跃升至94分,随即被纳入国家气象AI模型联合训练计划。
高质量数据集的规模化供给,正深刻改变AI研发范式。华为云发布的《2026大模型训练效率报告》显示,使用经国家数据局认证的高质量数据集,可使同等参数量模型在专业领域任务上的收敛速度提升3.2倍,幻觉率下降58%。更具战略意义的是,数据集正加速资产化:上海数据交易所数据显示,2026年一季度高质量数据集交易额达47.3亿元,同比增长210%,其中‘电力负荷预测数据集’‘新能源电池衰减图谱数据集’等稀缺资源单价突破千万级。专家指出,当数据集从‘燃料’升级为‘芯片’,其权属界定、价值评估与交易规则将成为数字经济时代的新基建核心。
展望未来,国家数据局已启动‘百行千集’攻坚计划,目标到2026年底建成覆盖全部国民经济行业的高质量数据集体系,并推动建立国际互认的数据集质量标准。这不仅是技术储备,更是国家在AI时代定义‘知识主权’与‘认知基础设施’的关键落子。