北京欣瑞通科贸有限责任公司

    主要针对报纸、书刊、杂志、图册、表单、公文等形式的纸介数据，通过专业化的解决方案，加工成PDF、Html、Txt、Doc、Xls等多种可编辑的电子文件格式。将保存在计算机内的文件进行OCR识别实现海量存储，既可录入光盘，又可直接存入硬盘或外插优盘，通过信息管理系统，可任意检索、核对和网上查询、调阅、打印，实现资源共享。
    同时，安全权限管理可以设置不同的浏览访问权限，保证了影像文件的安全性和保密性。加工的整个过程包括将纸质媒体整理登记、批量扫描、图像纠错、条码识别、自动上载及光盘发布等步骤。也可以从纸介数据中提取数据，进行逻辑的加工，然后可能有业务工作流程，最后归档，归档后的电子化文件，能被方便的检索及应用，这就是信息化生命周期的管理。
    由此，将传统的纸质载体转换为数字化产品。涉及领域包括报社、图书馆、出版社、杂志社、档案馆、银行、保险、财会、大型企事业单位等。数字资源加工与管理系统融合了高速扫描、OCR识别和全文检索三项技术，可以将数以万计的纸介质的文件、手稿、档案、资料、文书等快速、自动地转换成数字化文本、影像，并实现海量信息高速检索、查询。

资料数字化根据检索和利用需求，大概分为以下几个种类：

1.1第一类全文图像化，有简单的目录索引

这种类型的资料数字化，仅仅是将纸质的资料利用扫描仪扫描成图像文件，并进行简单的编目，提供目录索引，而不做文字的识别。

这种电子资料的好处在于投资小，每单位的价格最便宜；其缺点是没有全文检索功能，只能为读者提供简单的索引查询，图像文件较大导致浏览速度较慢。

1.2 第二类全文文本化,可全文检索

这种类型的资料数字化，全部利用人工录入，建立全文文本化的电子资料，

可以提供全文检索。

其优点是占用存储空间较小，可实现全文检索，浏览传输速度快；其缺点是未经过格式化，没有版面信息，读者阅览到的是单纯文本，单位价格较高。

1.3第三类全文图像文本化，可全文检索

这种类型的资料数字化，在提供纸质资料的扫描图像文件后，还进行了人工录入或者OCR识别，为图书建立了全文文本，因此可以提供全文检索。

这种类型，实际上是利用双层文件的形式向读者展示电子资料的。它分为上下两层，上面的是图像层，下面的是文本层，但是这种文本没有经过排版，它是无格式混乱的。读者看到的是上层的图像，而全文检索时，可以使用下层的文本。这种类型的好处在于单位价格较便宜，但是由于在读者浏览时要同时传输图像文件和文本文件，其浏览速度最慢。

1.4第四类基于原版原样的，可全文检索的

这种类型的资料数字化，利用扫描仪将纸质资料扫描加工成图像文件，再通过OCR工厂，识别成能够保留原始版面样式的文本化的文件（如：rtf、pdf格式），它既保留了版面的信息，又是全文文本化的，可以提供全文的检索。

这种类型的优点在于支持全文检索，占用存储空间较少，由于是文本格式的文件，电子资料质量（放大、缩小是不失真）和浏览速度都很好；其缺点是价格较高。

1.5四种类型比较

	全文检索	价格	浏览速度	电子书质量	占用存储空间
第一类全图像	不支持	最低	较慢	差	较多
第二类全文本	支持	最高	最慢	较好	最少
第三类双层PDF	支持	较低	较好	较好	最少
第四类原版原样	支持	较高	较快	最好	较少