展开文章目录
文章目录
  1. 1 《新华日报》OCR 识别模型训练
  2. 2 平面文物 OCR 识别系统

重庆红岩革命历史博物馆近年来随着多期文物数字化保护的项目实施,馆内馆藏三级以上革命文物大部分都已经完成了基础信息数据采集,已经留存了大量平面文物的高清图像信息数据,但没有相关文物的内容信息数据。因此,需要对现存的大量的纸质革命历史文物的内容进行活化处理。具体建设内容如下:

  1. 针对《新华日报》内容活化,完成《新华日报》OCR 模型建立及训练优化,并完成《新华日报》创刊开始出版的 3231 期报纸内容,共计 12446 页《新华日报》的高精度扫描图片进行 OCR 识别及信息提取。
  2. 建设平面文物 OCR 识别系统,能够实现对平面文物数据导入、识别、结构化处理、数据管理等相关应用。
  3. 中共中央南方局资源活化。实现中共中央南方局关键词在平面文物 OCR 识别系统中与中共中央南方局历史研究文献的自动关联检索。
  4. 实现平面文物 OCR 识别系统与藏品管理系统的数据对接。

###本系列文章来源于某单位公开发布的需求征集文稿,本站发布仅用于学习交流

本项目需要完成《新华日报》的内容活化,包括《新华日报》OCR 模型建立与训练,以及平面文物 OCR 识别系统。因为《新华日报》其字体具有特殊性,非目前的通用的文字 OCR 识别模型能够进行高精度识别。本次项目将进行《新华日报》报刊文物字体 OCR 识别模型的定制,模型训练及优化。最终实现《新华日报》文物数据 ocr 识别模型高准确率的自动化识别以及电子版可编辑文物内容转译。

《新华日报》内容活化,具体工作内容如下:

  1. 《新华日报》OCR 识别模型定制:通过馆方提供的《新华日报》高精度扫描图片,针对《新华日报》版内竖排繁体字进行数据标注及模型训练。
  2. 模型优化,通过大量的标注数据集对模型的识别准确率进行优化,最终实现针对《新华日报》内容文字单字识别准确率达到 95%以上。
  3. 建立一套平面文物 OCR 识别系统,能够对所有平面文物的印刷字体进行自动化 OCR 识别,同时能够提供模型管理功能,为优化升级后的模型提供服务部署等相关功能。

1 《新华日报》OCR 识别模型训练

《新华日报》样本复杂性较高,板式不固定,提取字段变动大,且部分极端样本、不固定版式众多(超淡、叠印、人眼无法辨识等),即常规 OCR 识别模型无法解决相关需求,必须采用定制化的场景智能文字识别引擎方案,通过针对《新华日报》进行定制化模型训练,提升场景智能文字识别准确率。

通过对《新华日报》样本繁体竖版文字进行大量数据标注,建设训练数据集和测试数据集,通过模型训练平台自主优化训练模型,不断优化模型识别准确率,最终实现高准确率的识别效果。具体工作内容:

  • 对《新华日报》大量样本进行真实数据提取与数据标注,同时配合训练平台仿真生成训练数据集,进行结构化提取,建立文字训练数据集及测试数据集;
  • 针对《新华日报》识别模型进行训练,参数调优,模型测试验证,最终实现针对《新华日报》的 OCR 模型单字识别准确率 95%以上;

1.1 模型定制开发

模型定制包括四个基础步骤:图像预处理,区域检测,文本检测,文本识别以及基于知识的后处理。

1、图像预处理(包括文字角度矫正以及去噪等图像增强技术)

(1)文本角度矫正

文本角度矫正技术能预测图像中文本的方向,将文本旋转至水平方向,有助于模型对各类场景图的检测;同时当文本横看竖看都可以的时候,检测模型只需按照水平方向便能正确检测文本框。因此,先将图像文本方向预测出来,再将图像旋转至水平方向,接着送入到检测模型中,能极大地提高文本检测的准确率以及避免方向歧义。检测模型在训练阶段也只需按照单一方向训练,模型性能更优。

(2)图像去噪

图像去噪模块主要用于明显的噪音干扰等,譬如叠印,污渍干扰等。

2、多方向多粒度文本检测

文本检测采用文本检测算法。文本检测算法是一套基于深度学习的端到端的多方向多粒度文本检测算法。通过特征共享的方式高效地把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。对于如中文这样文本长度跨度很大的语言,文本检测算法有一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更高的效率更好的适应变化的文本长度。

3、多字体多场景文本识别

文本识别算法对于多字体,大字符集,褶皱,模糊,光照等情况适应性强,并能充分结合上下文(图像层级)信息进行文字识别。

4、基于知识的后处理

结合先验知识的后处理能进一步提升识别准确率,本次 OCR 模型训练将通过三种方式进行知识的后处理,包括字符串操作,以及先验规则/模式。

1.2 样本采集/1.3 数据标注/1.4 模型训练/1.5 数据调优 略


2 平面文物 OCR 识别系统

2.1 系统登录

  • 系统用户支持通过管理员分配的专属账号密码进行登录。
  • 系统嵌入在藏品及数字资源管理系统中,支持单点登录,在同一时间,同一账号只能在一台机器上登录。

2.2 模型管理与服务部署

系统支持模型文件的更新,能够便捷的实现模型的更换及 OCR 识别引擎的部署。

2.3 平面文物数据导入

系统支持从藏品及数字资源管理系统中导入博物馆收录的高清报刊文物图片数据,为文物 OCR 识别提供原始数据支持。

2.4 平面文物数据管理

  • 系统支持对文物数据进行分类、查看、删除等操作。
  • 文物数据分类,系统管理员支持对文物信息进行自定义分类分组操作,如按照文物类别、文物等级类型等多种组别进行信息分类。
  • 文物数据查看,系统支持通过表单的方式将文物信息进行罗列,系统用户支持直观查看文物信息简述以及点击进入进行详细图片、报告等信息的查看。
  • 文物数据删除,系统管理员支持对文物信息进行删除,删除文件支持容错操作,当管理员对文件误删除时,可一键进行文件的恢复。
  • 文物数据标签,系统管理支持对文物数据进行标签设置,便于用户对文物的查询。
  • 文物数据分权管理,系统支持对文物数据进行分权管理,设定各类数据的查看权限。

2.5 平面文物识别及信息核验

  • 系统提供识别区域选择工具,能够针对需要进行文字识别的区域进行 ROI 选择,将框选的目标区域进行文字识别。
  • 系统提供文物识别信息核验功能,博物馆研究人员支持基于系统 OCR 识别后的信息与原始图片信息进行人工比对,查看 OCR 识别信息的准确性,如果存在问题,研究人员支持对识别后信息进行编辑修改或者重新识别操作。

2.6 平面文物识别信息存储

博物馆研究人员支持对识别后的信息进行存储。支持自定义对识别内容进行内容存储以及所有内容存储。

  • 部分内容存储:支持仅对文物图片中的部分模块识别后单独存储。
  • 所有内容存储:支持对整个文物图片中所有内容识别完成后进行存储。
  • 二次编辑:存储完成后支持再次进入文件进行内容核验修改。

2.7 平面文物识别数据管理

  • 系统支持对识别信息进行管理,支持分类、打标签、查看、编辑、删除等操作。
  • 文物数据分类:支持按照多种方式对文物数据进行分类,如数据类型、数据等级等。
  • 文物数据打标签:支持自定义对文物数据进行标签设置,按照人物、时间、地点等条件标签。
  • 文物数据查看:支持对识别数据进行查看,查看文物原件信息、识别信息等。
  • 文物数据编辑:支持对文物基础信息、文物识别信息等数据进行编辑。
  • 文物数据删除:支持对文物数据进行删除,删除后的数据如果存在误删的情况,支持一键恢复。

2.8 文物数据查询

系统支持通过多种查询条件(关键词、分类等)对文物数据进行快捷查询。系统提供以下几种数据查询方式:

  1. 文物名称检索:支持通过文物名称进行文物数据的快速定位。
  2. 文物分类检索: 支持通过文物分类对特定类型文物进行范围性检索。
  3. 文物标签检索:支持按照文物标签对文物进行快速定位。
  4. 文物等级检索:支持按照文物等级对文物进行快速定位。

2.9 平面文物识别数据导出/2.10 平面文物识别数据统计/2.11 系统管理/2.12 系统注销 略


革命历史博物馆数字化保护项目实施方案(智慧文博).docx

1.1. 项目背景 1
1.2. 建设目标 1
1.3. 建设内容 2
1.4. 项目整体预算 2
2.建设方案 3
2.1. 革命文物数字化资源采集 3
2.1.1. 文物本体信息数字化采集 4
2.1.2. 平面文物数字化采集 5
2.1.3. 文物三维数字化采集 6
2.1.4. 数据预处理 6
2.1.5. 文物本体数据管理系统 7
2.1.6. 文物数据采集及预处理支撑环境 9
2.2. 革命文物数字资源活化利用 14
2.2.1. 新华日报内容活化 14
2.2.2. 中共中央南方局资源活化 21
2.3. 革命文物数字化保护工作规范 22
2.3.1. 规范编制目标 22
2.3.2. 规范编制内容及要求 22
3.实施进度 23

相关文章

  • 什么是RFID图书馆? RFID智能图书馆系统组成

    什么是 RFID 图书馆? RFID 智能图书馆系统组成

    展开文章目录 文章目录 1 RFID 智能图书馆系统组成 2 什么是 FRID 3 RFID 标签和条形码的比较 4 RFID 智能图书馆设备拓展图 随着科技的发展,RFID 技术应用到图书馆已经成为普遍现实。为提高图书馆的智能化管理水平,图书馆采取了很多方案,为实现一站式管理和实现全面智能化管理,智能化图书馆方案通过传统借还方式与 RFID 自助相结合的形式来解决从传统借还转变至完全自助借还过渡性的障碍。同时也让读者体验到自助借还的方便,待完全成熟后,进行全面实施智能化管理,包括藏书智能化管理…

  • 革命历史博物馆文物数字化资源采集方案(数字文博)

    革命历史博物馆文物数字化资源采集方案(数字文博)

    展开文章目录 文章目录 1 文物本体信息数字化采集 1.1 本次项目采集文物概况 1.2 文物本体数据采集实施内容 2 平面文物数字化采集 3 文物三维数字化采集 4 数据预处理 5 文物本体数据管理系统 5.1 文物本体数据管理系统功能 5.2 与文物保护修复管理系统对接 6 文物数据采集及预处理支撑环境 6.1 文物数据采集支撑环境 6.2 物数据采集预处理支撑环境,略 6.3 文物数据信息安全保障 近年来重庆红岩革命历史博物馆已经实施了多期数字化保护项目,馆藏三级以上文物大部分都完成了文物…

  • 博物馆数字化保护项目实施规范和进度管理

    博物馆数字化保护项目实施规范和进度管理

    展开文章目录 文章目录 1 规范编制目标 2 规范编制内容及要求 3 项目实施进度管理 重庆红岩革命历史博物馆馆藏文物以纸质文物居多,本次规范编制将以本项目为依托,结合近年来重庆红岩革命历史博物馆文物数字化保护项目的实施经验,通过本项目的建设成果,包括本项目所使用的技术框架、数据格式、功能设计、管理要求等内容,尝试建立一套纸质革命文物数字化保护工作规范,未来对红岩馆后续的数字化保护项目建设起到积极的促进作用。 1 规范编制目标 第一,革命文物数字化保护工作规范应包含技术要求、合格评定、管理运营等…

  • 博物馆数字化保护项目的建设内容和预算(智慧文博)

    博物馆数字化保护项目的建设内容和预算(智慧文博)

    重庆红岩革命历史博物馆馆藏革命文物数字化保护项目,以博物馆的业务需求为牵引,以革命文物数字化信息采集为基础,文物活化利用为目的,总结一套针对纸质类革命文物数字化保护的规范。 ###本系列文章来源于某单位公开发布的需求征集文稿,本站发布仅用于学习交流 (1)革命文物数字化资源采集。通过采集文本本体信息数据,一方面完善文物信息资源存留的完整性,有助于文物修复工作开展,另一方面能够帮助研究人员通过文物的特征分析对该历史时期的其他领域进行研究。 (2)革命文物数字资源活化利用。通过人工智能技术的使用,建…

  • RFID智能图书馆整体解决方案(项目现状/建设意义/技术方案)

    RFID 智能图书馆整体解决方案(项目现状/建设意义/技术方案)

    展开文章目录 文章目录 1 目前图书馆系统建设现状 1.1 图书馆计算机网络化的发展阶段 1.2RFID 在图书馆流通管理中的应用 2 建设 RFID 智能图书馆的意义 2.1 更好的促进学校图书馆服务 2.2 简化借还书流程,提高流通效率 2.3 大幅降低图书盘点和查找工作量 2.4 提高图书馆工作人员的工作满意度 2.5 提高读者满意度 3 建设智能图书馆的相关标准 随着社会的进步,人们对知识越来越渴求,使图书馆人流量日益增大,管理难度逐年加大,陈旧的管理、服务越来越不能适应读者和环境日新月…

  • 图书馆自动化管理系统功能介绍(北创图书馆)

    图书馆自动化管理系统功能介绍(北创图书馆)

    展开文章目录 文章目录 1 图书馆自动化管理系统拓扑 2 图书馆自动化管理系统简介 3 图书馆 OPAC 公共查询系统简介 本系列文章介绍的图书管理系统采用 C/S 架构 ,后台数据库使用的是比较流行的 SQL SERVER 数据库,全面兼容主流数据库版本。图书管理系统可以配合条码扫描枪、校园一卡通的 IC 卡、ID 卡使用。软件功能强大,操作简单,是一款符合图书馆相关规定和标准的图书管理软件。软件提供试用版,用户均可联系我们获取免费下载版本……众平是北创图书馆特约合作伙伴。 1 图书馆自动化管…

- 联 系 我 们 -

+86 186-2315-0440

在线咨询:点击这里给我发消息

电子邮箱:i@zzptech.com

工作时间:7*24h,全年无休

关注微信