国家数据局:全国高质量数据集超10万个,AI训练资源进入规模化供给新阶段
2026年3月24日,国家数据局发布权威数据:截至2025年底,全国已建成并通过认证的高质量数据集总量突破10.2万个,总规模达2.8ZB(泽字节),相当于中国国家图书馆全部数字资源总量的310倍。这批数据集严格遵循《人工智能训练数据质量评估规范(GB/T 43200-2025)》,在数据真实性、标注一致性、场景覆盖度、隐私脱敏完整性等九大维度达到A级认证标准,覆盖智能制造、智慧农业、生物医药、城市治理、金融服务等56个国民经济行业门类。尤为突出的是,其中37%为多模态融合数据集(如‘卫星遥感+气象传感+农事日志’时空对齐数据),21%具备跨语言、跨文化语境标注能力,为大模型全球化部署奠定坚实基础。这一里程碑式成果,标志着我国AI核心生产资料——高质量数据——已实现从‘实验室小样本’到‘工业化大规模供给’的历史性跨越。
支撑这一跃升的是国家‘数智基座’重大工程的全面落地。全国已建成12个国家级数据训练场、87个行业级数据空间及214个区域数据要素流通节点,形成‘原始数据不出域、模型训练可验证、结果应用受监管’的可信计算范式。以‘长三角工业视觉质检数据联盟’为例,其汇聚了三省一市237家制造企业的产线缺陷图像、3D点云、工艺参数等异构数据,在联邦学习框架下完成联合建模,使某汽车零部件企业表面缺陷识别准确率从89.3%跃升至99.7%,误报率下降82%,直接降低年质检成本超4200万元。
数据资源的规模化供给正深刻重构AI产业价值链。一方面,催生专业数据服务商崛起——如‘数源智联’已为327家AI企业提供定制化数据清洗、合成增强、合规审计一站式服务;另一方面,倒逼算力基础设施升级:2026年Q1全国智算中心平均数据吞吐带宽较2025年提升3.8倍,‘存-算-网-电’协同调度效率成为新竞争焦点。专家指出,当数据从稀缺资源变为充沛要素,AI创新的主战场将加速从‘模型炼丹’转向‘数据驱动的场景精耕’,谁能高效链接高质量数据与真实产业痛点,谁就掌握了下一阶段的制高点。