北京欣瑞通科贸有限责任公司

TH-OCR 2007 数据录入工厂

海量数据电子化首选　图书馆数据电子化必备
全方位实现与大型报社以及数据　加工企业的立体链结与无缝合作

【产品介绍】

TH-OCR 2007文通数据录入工厂是在国家“863”计划国家自然科学基金长期支持下，清华大学电子工程系智能图文信息处理研究室汉字识别研究工作的基础上开发完成的。它是清华技术在专业领域中应用的又一个典范。
TH-OCR 2007文通数据录入工厂能够快速地将印刷的文档转化为可供阅读和可编辑的高质量电子文档，进而将电子文档应用到各类数据库、电子出版物、数字图书馆、网络资源等新型资源的建设和再版图书生产中。它是行业数字信息化不可或缺的重要组成部分。
北京文通公司作为一家拥有自主知识产权，以清华光学字符识别TH-OCR及手写识别两大核心技术为先导的独立软件开发商及行业解决方案提供商，一直致力于文字识别技术的发展依托清华大学强大的技术后盾，沉淀、积累了卓越的识别技术，为我国信息化建设做出了巨大的贡献。

实现计算机自动识别处理

系统能够实现对TIF、JPG、BMP等常用图像资源的动态监视，自动进行识别转换。

保证每人每天能够录入20万字

具有超大字符集（2万多汉字），并且具有两套识别核心，使识别率更高，减少校对工作量。

支持亚洲文字

系统可识别中、英、日、韩四国文字，其中中文包括中文简繁体，而且支持中英、日英、韩英混排识别。

技术领先的纵向校对模块

减少校对工作量80%左右，错误率在万分之一以下。

版面恢复功能

独有的恢复版面工具，可以恢复图像的任何一点细节，使信息得到的最完整的保留。

可以生成任何常规格式文件

系统除可以生成HTML、RTF、TXT、EXLCEL、PDF等常规格式的文件以外，还提供一个JDA中间格式文件，支持转换其他专有格式打印。

【新增功能】

PDF直接导入

解决了PDF自动处理的难题。

导入文件夹

能够将文件夹内的所有结构原样保留，自动识别结构内所有图像文件，将其自动转化为PDF格式文件。

导出公文PDF

可以直接导出公文PDF格式文件，该文件可以实现三层PDF技术，在黑白双层PDF的基础上，把红色部分体现在黑白图像上，实现彩色图像的黑白压缩大小，并且可以查询检索以及二次利用。

系统托盘

使界面更加干净整洁

导入图像格式的选择

例如24位彩色、8位灰度或黑白等等。

多语言界面

增加了繁体中文和英文界面，增加了系统托盘选项，方便快捷。

自动检视栏

是否监视子文件夹，是否保持目录结构，是否删除原始文件，识别所需时间进度等等。

【主要功能模块】

识别模块

具有超强的识别核心，可以识别简繁体汉字2万多，识别的语言包括中文简体、繁体、英文、日文、韩文、自动版面分析能力大大增强。最大限度减少手工操作量。新增新版本英文识别核心。

纵向校对模块

可以将成百上千张图像一起校时，将识别成同一个字的图像集中在一个窗口内，先标记错误，再自动与横校进行台并，后统一改正，校对工作量减少80%，错误率可控侧在万分之一。

版面恢复模块

通过版面恢复编辑器，可以将旋转图像的所有信息恢复过来，比如：字体、颜色、花边等。

自动处理模块（增强版功能）

可以实现图像文件到PDF文件的自动转换、生成的PDF文件能够实现全文检索，可以复制粘贴，也可以对某个指定目录进行长期监视，真正实现无人操作。

PDF直接导入

TH-OCR2007在计算机安装Adobe Acrobat的前提下，可以直接将PDF图像导入主程序进行识别、解决了PDF长期以来的识别难题。

PDF书签生成模块

可直接在程序中进行PDF书签设计。无需在Adobe Acrobat中生成，方便而快捷。

导出RTF形式多样化

用户可以根据自己的需求对导出的RTF进行不同形式的设计。

生产流程网络管理模块

专业的OCR流程管理　　

生产加工流程由软件控制

用户管理　　　　　　

工作量统计

生产流程网络应用示意图