主要针对报纸、书刊、杂志、图册、表单、公文等形式的纸介数据,通过专业化的解决方案,加工成PDF、Html、Txt、Doc、Xls等多种可编辑的电子文件格式。将保存在计算机内的文件进行OCR识别实现海量存储,既可录入光盘,又可直接存入硬盘或外插优盘,通过信息管理系统,可任意检索、核对和网上查询、调阅、打印,实现资源共享。
同时,安全权限管理可以设置不同的浏览访问权限,保证了影像文件的安全性和保密性。加工的整个过程包括将纸质媒体整理登记、批量扫描、图像纠错、条码识别、自动上载及光盘发布等步骤。也可以从纸介数据中提取数据,进行逻辑的加工,然后可能有业务工作流程,最后归档,归档后的电子化文件,能被方便的检索及应用,这就是信息化生命周期的管理。
由此,将传统的纸质载体转换为数字化产品。涉及领域包括报社、图书馆、出版社、杂志社、档案馆、银行、保险、财会、大型企事业单位等。数字资源加工与管理系统融合了高速扫描、OCR识别和全文检索三项技术,可以将数以万计的纸介质的文件、手稿、档案、资料、文书等快速、自动地转换成数字化文本、影像,并实现海量信息高速检索、查询。
资料数字化根据检索和利用需求,大概分为以下几个种类:
1.1第一类 全文图像化,有简单的目录索引
这种类型的资料数字化,仅仅是将纸质的资料利用扫描仪扫描成图像文件,并进行简单的编目,提供目录索引,而不做文字的识别。
这种电子资料的好处在于投资小,每单位的价格最便宜;其缺点是没有全文检索功能,只能为读者提供简单的索引查询,图像文件较大导致浏览速度较慢。
1.2 第二类全文文本化,可全文检索
这种类型的资料数字化,全部利用人工录入,建立全文文本化的电子资料,
可以提供全文检索。
其优点是占用存储空间较小,可实现全文检索,浏览传输速度快;其缺点是未经过格式化,没有版面信息,读者阅览到的是单纯文本,单位价格较高。
1.3第三类 全文图像文本化,可全文检索
这种类型的资料数字化,在提供纸质资料的扫描图像文件后,还进行了人工录入或者OCR识别,为图书建立了全文文本,因此可以提供全文检索。
这种类型,实际上是利用双层文件的形式向读者展示电子资料的。它分为上下两层,上面的是图像层,下面的是文本层,但是这种文本没有经过排版,它是无格式混乱的。读者看到的是上层的图像,而全文检索时,可以使用下层的文本。这种类型的好处在于单位价格较便宜,但是由于在读者浏览时要同时传输图像文件和文本文件,其浏览速度最慢。
1.4第四类 基于原版原样的,可全文检索的
这种类型的资料数字化,利用扫描仪将纸质资料扫描加工成图像文件,再通过OCR工厂,识别成能够保留原始版面样式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的检索。
这种类型的优点在于支持全文检索,占用存储空间较少,由于是文本格式的文件,电子资料质量(放大、缩小是不失真)和浏览速度都很好;其缺点是价格较高。
1.5四种类型比较
|
|
全文检索 |
价格 |
浏览速度 |
电子书质量 |
占用存储空间 |
|
第一类
全图像 |
不支持 |
最低 |
较慢 |
差 |
较多 |
|
第二类
全文本 |
支持 |
最高 |
最慢 |
较好 |
最少 |
|
第三类
双层PDF |
支持 |
较低 |
较好 |
较好 |
最少 |
|
第四类
原版原样 |
支持 |
较高 |
较快 |
最好 |
较少 |