|
系统简介
文档数字化系统融合了高速扫描、OCR识别和全文检索三项技术,可以将数以万计的纸介质的文件、手稿、档案、资料、文书等快速、自动地转换成数字化文本、影像,并实现海量信息高速检索 、查询。
实现对文档资料基于内容的检索与原件显示的应用目标。 数十万篇文档资料,亚秒级内可以查询到目标数据。
系统工作流程

功能特点
纸本文献数字化加工
文档资料扫描:扫描部分提供图像增强处理功能,如电子图像的自动校正、自适应纸张大小、灰度加强和去黑边等功能。 文字识别与影像压缩:对扫描的图像调用OCR程序进行文字识别,对文档著录项辅助标引,影像文档和相应的识别文本检查、订正后自动压缩打包,自动地转换成标准格式。 数字化加工自动化程度高:系统实现文档资料高速扫描,批量汉字自动识别、著录项标引和数字化文档自动入库,整个过程基本自动完成,人工干预很少,大大提高文档数字化的自动化程度。 系统支持各类中、高速扫描仪及普通低速平板扫描仪。
电子文档管理
系统以先进的CGRS全文数据库作为后台管理系统。CGRS全文数据库曾经历TB级数据资源的考验,满足未来数据不断增加的需要。
文档检索与利用
系统支持单字段(著录项)简单查询,也能进行多字段多条件复合检索。 提供导航检索、模糊检索、二次检索、距离检索、内容关联检索和同义词相关词扩展等多种高级查询方式。 文档内容的全文检索。与国内已有的系统只能通过字段(著录项)检索相比,CGDMS实现了扫描文档正文内容的全文检索,检索结果定位到文档所在页面的具体位置,文件内容原版显示,可自由放大或缩小,大大提高了电子文档利用深度,为进一步开展电子文档内容分析、挖掘打下基础。 图、文、声、像一体化检索。
运行环境
硬件环境:普通PC机,256M以上内存。 操作系统环境:Windows 98 / 2000 / XP / 2003等。
应用领域
系统可广泛地应用于政府机关、图书馆、档案馆、博物馆、出版社、银行、税务、保险等机构,进行文件、图书、档案、票据等的数字化加工、管理和提供信息服务。
|