国家数据局披露:全国高质量数据集超10万个,达国家图书馆数字资源总量310倍
2026年3月24日,国家数据局在例行新闻发布会上公布重磅数据:截至2025年底,全国已建成覆盖政务、科研、产业、民生等领域的高质量数据集超过10万个,总规模达28.6EB,相当于中国国家图书馆现有数字资源总量的310倍。这一成果源于2024年启动的‘数智基座’国家专项工程,通过建立统一的数据质量评估标准(DQAS-2025)、设立百亿级数据要素发展基金、建设12个区域性数据训练场等组合举措,系统性破解AI训练‘有算力无数据’‘有数据无质量’的双重瓶颈。发布会特别强调,这批数据集均通过‘三审一检’机制——即领域专家初审、算法模型复审、伦理委员会终审及自动化数据血缘检测,确保标注精度≥99.2%、隐私脱敏合规率100%、时空一致性误差<0.03%。
在应用层面,这些高质量数据集已支撑237个国家级AI大模型训练任务,包括气象预报大模型‘风云智算’、中医药知识图谱‘本草万象’及工业缺陷检测模型‘精工之眼’。以工信部牵头的‘智造数据联盟’为例,其汇聚的3.2万个制造业视觉数据集,使国产工业质检模型在PCB焊点识别、轴承裂纹检测等任务上的F1值平均提升18.7%,误报率下降至0.08%。更值得关注的是,数据局同步上线‘数据集护照’区块链存证系统,每个数据集生成唯一哈希指纹与使用溯源链,目前已完成16.8万次跨机构授权调用,交易额累计达9.4亿元。
专家解读指出,高质量数据集规模化供给,正推动AI研发范式从‘模型为中心’转向‘数据为中心’。清华大学人工智能研究院院长张钹院士指出:\"当数据质量成为可量化、可交易、可追溯的生产要素,AI创新将真正摆脱‘黑箱炼丹’,进入工业化、标准化新阶段。\"下一步,国家数据局将启动‘百城千园’数据训练场计划,目标2026年底前实现地级市全覆盖,为中小企业提供普惠型AI训练基础设施。