重庆红岩革命历史博物馆近年来随着多期文物数字化保护的项目实施,馆内馆藏三级以上革命文物大部分都已经完成了基础信息数据采集,已经留存了大量平面文物的高清图像信息数据,但没有相关文物的内容信息数据。因此,需要对现存的大量的纸质革命历史文物的内容进行活化处理。具体建设内容如下:
- 针对《新华日报》内容活化,完成《新华日报》OCR 模型建立及训练优化,并完成《新华日报》创刊开始出版的 3231 期报纸内容,共计 12446 页《新华日报》的高精度扫描图片进行 OCR 识别及信息提取。
- 建设平面文物 OCR 识别系统,能够实现对平面文物数据导入、识别、结构化处理、数据管理等相关应用。
- 中共中央南方局资源活化。实现中共中央南方局关键词在平面文物 OCR 识别系统中与中共中央南方局历史研究文献的自动关联检索。
- 实现平面文物 OCR 识别系统与藏品管理系统的数据对接。
###本系列文章来源于某单位公开发布的需求征集文稿,本站发布仅用于学习交流
本项目需要完成《新华日报》的内容活化,包括《新华日报》OCR 模型建立与训练,以及平面文物 OCR 识别系统。因为《新华日报》其字体具有特殊性,非目前的通用的文字 OCR 识别模型能够进行高精度识别。本次项目将进行《新华日报》报刊文物字体 OCR 识别模型的定制,模型训练及优化。最终实现《新华日报》文物数据 ocr 识别模型高准确率的自动化识别以及电子版可编辑文物内容转译。
《新华日报》内容活化,具体工作内容如下:
- 《新华日报》OCR 识别模型定制:通过馆方提供的《新华日报》高精度扫描图片,针对《新华日报》版内竖排繁体字进行数据标注及模型训练。
- 模型优化,通过大量的标注数据集对模型的识别准确率进行优化,最终实现针对《新华日报》内容文字单字识别准确率达到 95%以上。
- 建立一套平面文物 OCR 识别系统,能够对所有平面文物的印刷字体进行自动化 OCR 识别,同时能够提供模型管理功能,为优化升级后的模型提供服务部署等相关功能。
1 《新华日报》OCR 识别模型训练
《新华日报》样本复杂性较高,板式不固定,提取字段变动大,且部分极端样本、不固定版式众多(超淡、叠印、人眼无法辨识等),即常规 OCR 识别模型无法解决相关需求,必须采用定制化的场景智能文字识别引擎方案,通过针对《新华日报》进行定制化模型训练,提升场景智能文字识别准确率。
通过对《新华日报》样本繁体竖版文字进行大量数据标注,建设训练数据集和测试数据集,通过模型训练平台自主优化训练模型,不断优化模型识别准确率,最终实现高准确率的识别效果。具体工作内容:
- 对《新华日报》大量样本进行真实数据提取与数据标注,同时配合训练平台仿真生成训练数据集,进行结构化提取,建立文字训练数据集及测试数据集;
- 针对《新华日报》识别模型进行训练,参数调优,模型测试验证,最终实现针对《新华日报》的 OCR 模型单字识别准确率 95%以上;
1.1 模型定制开发
模型定制包括四个基础步骤:图像预处理,区域检测,文本检测,文本识别以及基于知识的后处理。
1、图像预处理(包括文字角度矫正以及去噪等图像增强技术)
(1)文本角度矫正
文本角度矫正技术能预测图像中文本的方向,将文本旋转至水平方向,有助于模型对各类场景图的检测;同时当文本横看竖看都可以的时候,检测模型只需按照水平方向便能正确检测文本框。因此,先将图像文本方向预测出来,再将图像旋转至水平方向,接着送入到检测模型中,能极大地提高文本检测的准确率以及避免方向歧义。检测模型在训练阶段也只需按照单一方向训练,模型性能更优。
(2)图像去噪
图像去噪模块主要用于明显的噪音干扰等,譬如叠印,污渍干扰等。
2、多方向多粒度文本检测
文本检测采用文本检测算法。文本检测算法是一套基于深度学习的端到端的多方向多粒度文本检测算法。通过特征共享的方式高效地把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。对于如中文这样文本长度跨度很大的语言,文本检测算法有一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。
3、多字体多场景文本识别
文本识别算法对于多字体,大字符集,褶皱,模糊,光照等情况适应性强,并能充分结合上下文(图像层级)信息进行文字识别。
4、基于知识的后处理
结合先验知识的后处理能进一步提升识别准确率,本次 OCR 模型训练将通过三种方式进行知识的后处理,包括字符串操作,以及先验规则/模式。
1.2 样本采集/1.3 数据标注/1.4 模型训练/1.5 数据调优 略
2 平面文物 OCR 识别系统
2.1 系统登录
- 系统用户支持通过管理员分配的专属账号密码进行登录。
- 系统嵌入在藏品及数字资源管理系统中,支持单点登录,在同一时间,同一账号只能在一台机器上登录。
2.2 模型管理与服务部署
系统支持模型文件的更新,能够便捷的实现模型的更换及 OCR 识别引擎的部署。
2.3 平面文物数据导入
系统支持从藏品及数字资源管理系统中导入博物馆收录的高清报刊文物图片数据,为文物 OCR 识别提供原始数据支持。
2.4 平面文物数据管理
- 系统支持对文物数据进行分类、查看、删除等操作。
- 文物数据分类,系统管理员支持对文物信息进行自定义分类分组操作,如按照文物类别、文物等级类型等多种组别进行信息分类。
- 文物数据查看,系统支持通过表单的方式将文物信息进行罗列,系统用户支持直观查看文物信息简述以及点击进入进行详细图片、报告等信息的查看。
- 文物数据删除,系统管理员支持对文物信息进行删除,删除文件支持容错操作,当管理员对文件误删除时,可一键进行文件的恢复。
- 文物数据标签,系统管理支持对文物数据进行标签设置,便于用户对文物的查询。
- 文物数据分权管理,系统支持对文物数据进行分权管理,设定各类数据的查看权限。
2.5 平面文物识别及信息核验
- 系统提供识别区域选择工具,能够针对需要进行文字识别的区域进行 ROI 选择,将框选的目标区域进行文字识别。
- 系统提供文物识别信息核验功能,博物馆研究人员支持基于系统 OCR 识别后的信息与原始图片信息进行人工比对,查看 OCR 识别信息的准确性,如果存在问题,研究人员支持对识别后信息进行编辑修改或者重新识别操作。
2.6 平面文物识别信息存储
博物馆研究人员支持对识别后的信息进行存储。支持自定义对识别内容进行内容存储以及所有内容存储。
- 部分内容存储:支持仅对文物图片中的部分模块识别后单独存储。
- 所有内容存储:支持对整个文物图片中所有内容识别完成后进行存储。
- 二次编辑:存储完成后支持再次进入文件进行内容核验修改。
2.7 平面文物识别数据管理
- 系统支持对识别信息进行管理,支持分类、打标签、查看、编辑、删除等操作。
- 文物数据分类:支持按照多种方式对文物数据进行分类,如数据类型、数据等级等。
- 文物数据打标签:支持自定义对文物数据进行标签设置,按照人物、时间、地点等条件标签。
- 文物数据查看:支持对识别数据进行查看,查看文物原件信息、识别信息等。
- 文物数据编辑:支持对文物基础信息、文物识别信息等数据进行编辑。
- 文物数据删除:支持对文物数据进行删除,删除后的数据如果存在误删的情况,支持一键恢复。
2.8 文物数据查询
系统支持通过多种查询条件(关键词、分类等)对文物数据进行快捷查询。系统提供以下几种数据查询方式:
- 文物名称检索:支持通过文物名称进行文物数据的快速定位。
- 文物分类检索: 支持通过文物分类对特定类型文物进行范围性检索。
- 文物标签检索:支持按照文物标签对文物进行快速定位。
- 文物等级检索:支持按照文物等级对文物进行快速定位。
2.9 平面文物识别数据导出/2.10 平面文物识别数据统计/2.11 系统管理/2.12 系统注销 略
1.1. 项目背景 1
1.2. 建设目标 1
1.3. 建设内容 2
1.4. 项目整体预算 2
2.建设方案 3
2.1. 革命文物数字化资源采集 3
2.1.1. 文物本体信息数字化采集 4
2.1.2. 平面文物数字化采集 5
2.1.3. 文物三维数字化采集 6
2.1.4. 数据预处理 6
2.1.5. 文物本体数据管理系统 7
2.1.6. 文物数据采集及预处理支撑环境 9
2.2. 革命文物数字资源活化利用 14
2.2.1. 新华日报内容活化 14
2.2.2. 中共中央南方局资源活化 21
2.3. 革命文物数字化保护工作规范 22
2.3.1. 规范编制目标 22
2.3.2. 规范编制内容及要求 22
3.实施进度 23