|
系统简介
随着各行业信息化的不断深入,各类信息也随之爆炸式的快速膨胀,而这些信息90%以上的为非结构化的信息,如各类电子文档、网页、多媒体内容等,仅有不到10%的信息内容为数字等结构 化信息。那么如何有效的管理与高效地利用这些非结构化的信息资源就显得尤为重要。
天宇全文检索系统是自然语言处理技术与海量内容管理技术的完美结合,它对网页、文本、电子文档和图像等非结构化的信息提供强大的管理功能,能有效地解决以上问题。
系统主要由全文数据库服务器、系统管理员客户端、检索客户端、WEB全文检索系统、二次开发接口等组成。
功能特点
体系结构
分布式体系架构,支持跨服务器、跨平台分布式内容管理,实现异构数据库联合检索;允许跨255个站点的数据库服务器分布式检索,实现网络内信息资源共享。

系统支持所有主流的操作系统、应用服务器及Web服务器。 支持J2EE及.NET体系架构。 32位平台支持64位数据库文件,即支持大于4G的数据库。
内容管理
系统采用领先于自动切分词技术的字元索引策略,支持按词索引、按字索引、字词混合索引。 系统支持GBK、GB2312、BIG5内码集,在内核上支持Unicode码集。 实现了自动分类、自动摘要、文本相似性比较等功能。 系统支持相关性词表扩展检索功能,系统内置同义与近义词表,词表可维护,方便用户修改。 系统全面支持中文、英文、中英文混合、德文、法文等多语种的管理与智能检索。 系统支持多种数据类型(日期、数值、文本)的管理。 系统实现对文本、各类电子文档和图像、音频、视频等多媒体提供强大的管理和检索功能,国内唯一一个实现对图像、文字、音频、视频等多媒体信息关联管理与检索的全文数据库系统。 系统具有强大数据库管理及维护功能,如数据库定义、建立、备份、恢复、优化重组、逻辑删除、物理删除、增量备份、记录查重等功能。 系统支持外部扫描的电子文挡、网页与网页自动提取内容等数据的管理。 支持字段的唯一性特征,可以根据字段内容自动去重。
用户管理
系统内置独立于操作系统的用户权限管理、用户操作审计、统计与分析等功能,系统如实记录每个用户的操作日志,方便进行数据库检索频度、检索词频的统计与分析。 系统提供多级用户管理体系,可以实现灵活的用户-数据库授权机制,数据库管理、数据维护、系统管理、检索各种权限分开,可以按需分配。 系统具备用户分组管理、数据库转让等个性化用户管理功能。
全文检索
1、信息发布
实现对CGRS全文数据库中文献记录实时动态地发布到WEB上;页面发布时自动生成页面链接,无需人工操作;用户可以自定义显示格式,显示格式支持可视化编辑,所见即所得地发布信息。
2、智能检索
系统支持中英文及其他语种的多语种混合检索,支持多种数据类型的数据检索。 支持外部特征字段检索时的词、拼音、笔画等简便的输入帮助功能。 系统允许使用任意字、词、片段、语句进行全匹配检索。 系统提供多种检索手段:各种逻辑运算符(逻辑或、与、非)组合检索、二次检索、渐进检索、追问内容关联检索、相关词扩检、距离检索(模糊检索)等。 系统支持相关性词表扩展检索功能,系统内置同义与近义词表,词表可维护,方便用户修改。 系统实现对文本、各类电子文档和图像、音频、视频等多媒体提供强大的关联检索功能。 系统采用优化的检索策略和多线程并发检索机制,充分保证了高并发用户(大于1000个)的检索效率。 基于字元索引技术,在保证检索性能的同时达到100%查全率。 系统提供分类字段,支持分类浏览和检索。
3、数据库关联检索
系统提供独创的多种关联检索手段:源数据库的长文本字段与目标数据库的特征字段的外部关联;以某一个特征字段的字段值作为检索词的特征关联;源数据库的长文本字段与目标数据库的任意检索字段的词典关联;基于内容联想的横向关联。

4、关系数据库检索
系统具有与RDBMS接口网关,实现与主流关系数据库(Sybase、Oracle, SQL Server和DB2)无缝连接,提供全文检索引擎功能,从而实现对关系数据库中记录高效的全文检索(与独立软件CGGATEWAY配合实现)。
5、个性化服务
订阅检索:用户提交检索条件,系统根据用户的定制条件,自动定时发送检索结果到用户邮箱中(以独立软件CGPUSH提供)。 支持检索结果的多种定制手段,用户根据喜好,可以定制文献显示的字体大小、颜色、显示字段、文献排列等。 用户可以在系统授权地情况下,在线修改文献内容、提交文献等操作。
安全控制
系统提供系统、数据库、记录及字段级安全控制手段; 用户使用信息资源的授权机制、数据库中文献密级控制、用户文献存取数量控制; 系统记录用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、调阅文献篇数、脱机状态等日志信息,日志结果自动保存入库,并提供查询、浏览、打印等功能,有效地防止用户越权操作与防抵赖。 系统提供数据库文件加密、索引加密、库结构文件加密等安全机制。
开发接口
系统提供标准的二次开发接口,可以开发运行Uinx、Linux、Windows NT和WEB环境的各种应用。用户可以根据实际需要,定制个性化的应用系统。具体接口包括: 标准的C++管理与检索接口(支持Windows和Unix、Linux下的通用开发工具)。 Javabeans类库应用程序开发接口(支持J2EE环境下的开发工具)。 C#类库应用程序开发接口(支持.NET平台下的开发工具)。
性能指标
数据库容量:每个数据库最多可存贮存42亿篇文献; 查词速度:百万篇文献查询的响应速度在毫秒级内; 联库检索:同时对500个数据库进行联合检索; 允许跨255个站点的数据库服务器分布式检索; 每个全文数据库服务器允许建立数据库可达936个; 允许管理30000个以上的用户。
运行环境
服务器:支持各种高档微机、PC服务器、中小型计算机,256M内存,推荐512M以上内存; 操作系统:Windows NT / 2000 Server/2003 Server;Linux 2.0及以上;Sun Solaris2.3及以上、IBM AIX4.2及以上、HP-UX 10.10及以上、Compaq True64 UNIX 3.2、SGI IRIX6.3及以上。 WEB应用服务器:支持IIS 3.0以上、Tomcat、WebSphere、WebLogical等。
应用领域
网站内容管理平台; 海量电子资料库建设平台; 数字图书馆、数字档案馆应用支撑平台; 新闻机构数字资产管理系统; 数字医院病历数字化管理平台; 企业竞争情报系统; 企业搜索引擎系统; 银行、证券、金融;
|