AI赋能古籍修复:国家图书馆上线‘墨韵智修’系统,首年完成37万页破损文献智能识别与结构化标注
在人工智能加速渗透文化基础设施的背景下,国家图书馆于2026年4月正式发布国内首个面向大规模古籍抢救性保护的AI系统——“墨韵智修”。该系统并非简单OCR升级,而是融合多光谱图像重建、残卷语义补全、异体字动态消歧与知识驱动型版式解析四大核心技术,已覆盖宋元刻本、明清稿抄本及敦煌遗书三大高危文献类型。截至2026年5月初,系统已在国图古籍馆藏中完成37.2万页历史文献的自动化预处理,其中破损区域识别准确率达98.6%,文字可读性恢复率较传统人工修复提升4.3倍,单页平均处理耗时压缩至11.7秒。
系统突破性在于构建了首个开放古籍语义知识图谱(CKG-2026),内嵌127类古籍专有实体关系(如‘刻工—坊号—刊刻年代’‘避讳字—帝王名讳—对应朝代’),支持跨版本异文自动比对与校勘建议生成。例如,在处理明嘉靖《水经注》五种存世抄本时,系统通过图谱推理定位出三处关键脱文,并依据同期地理志书与碑刻数据库反向推演出缺失段落的7种可能文本形态,供专家复核。项目牵头人、国家古籍保护中心首席科学家李砚指出:“这不是让机器代替修复师,而是把修复师从‘辨字’‘拼页’‘查证’的机械循环中解放出来,转向更高阶的文本阐释与历史语境重建。”
技术落地背后是跨学科协同攻坚:中科院自动化所负责多模态图像增强模型训练,北京大学古典文献学团队提供12万条人工标注的训诂规则作为弱监督信号,敦煌研究院贡献其独家红外扫描数据集用于训练褪色墨迹还原模块。尤为关键的是,系统采用联邦学习架构,所有地方古籍馆的数据不出本地即可参与模型迭代,彻底规避敏感文献数字资产外泄风险。目前已有浙江、陕西、广东等11家省级古籍保护中心接入该平台,形成全国首个分布式古籍AI修复协作网络。
行业影响远超技术效率维度。过去依赖经验传承的修复技艺正被数据化沉淀——系统自动记录每处修复决策依据(如某处补纸材质判定源于327份清代装裱档案的模式匹配),形成可追溯、可验证、可复用的数字修复日志。这为非遗技艺标准化与青年修复师培养提供了全新范式。更深远的是,结构化后的古籍文本已开始反哺学术研究:中国社会科学院历史研究所利用该系统输出的21万条‘人物—事件—时空’三元组,构建出明代江南士绅社交网络动态演化模型,发现以往未被关注的跨地域学术共同体雏形。
展望未来,‘墨韵智修’二期工程将接入甲骨文、金文等非纸质载体识别模块,并探索AI辅助古籍活化应用——如基于修复后文本自动生成符合历史语境的沉浸式数字展陈脚本,或为中小学语文教材提供精准溯源的典故解析插件。国家图书馆馆长熊远明强调:“当AI读懂泛黄纸页上的沉默,它修复的不仅是文献,更是文明记忆的连续性。下一步,我们要让每一页被唤醒的古籍,都成为可计算、可对话、可生长的文化基因。”这一实践标志着AI正从‘信息搬运工’跃升为‘文明解码器’,在技术伦理与人文价值的双重锚点上,开辟出人工智能深度参与人类文明传承的新坐标系。