整合检索系统

1.1、背景介绍

随着社会的进步,信息技术的发展,一个公司在不断向前发展的过程中会累积相当多的数据,而且随着时间的推移,这些数据累积的越来越快。这些飞速增加的数据一方面为公司积累了一个非常庞大的知识库,成为公司的宝贵财富,而另一方面却产生了一些问题,就是要从这些信息库里查找一些资源越来越费劲,而且这个问题随着数据增加,越来越快的呈现出来。由于这些信息库之间的信息是孤立的,它们之间没有任何联系,随着数据越来越多,查找这些信息耗费的人力物力成本却在不断增加,人们需要在不同的系统之间搜索整理数据,而且搜索的效率越来越低。怎样在多个孤立的数据孤岛里快速找到希望得到的数据,成为一个困扰大家的难题。众所周知,现在是信息社会,谁能在第一时间内掌握一些资料,谁就有可能在第一时间对某些问题做出反应,从而在一些领域取得领先。

1.2、现状

企业一般拥有OA公文办公系统,还有产品数据管理PDM系统(Product Data Management),文件系统如ftp服务器(word文档、Excel、PDF等各种类型的文档),人事档案系统,以及EOS等工艺技术文档管理系统。随着公司的发展,各种类型的文件会越来越多,而且存放在各个不同的系统中,形成了一些信息孤岛。有相当一部分资料查找效率非常低,不能适应具体工作的需要。长期下去,会极大的阻碍公司的发展。整合检索,迫在眉睫。

1.3、总体目标

“整合全文检索系统”主要针对企业中存在的这些信息孤岛,利用先进的技术,把它们整合到一起,高效的生成透明、多维的检索结果,即使有些信息可能是用户本无了解或未能清楚记忆并表达的,并按照最新的互联网体验模式展示给用户。检索结果的动态呈现、多维呈现将会为用户提供发现信息的最佳途径。配合主题词表,即使用户输入错误,系统也能自动推荐正确的表达供用户选择。

总之,整合全文检索系统将帮助网站的终端用户、企业内部用户、管理人员或者其他类型的使用者准确获取信息,成为易于部署、管理方便、使用便捷的信息桥梁。

总体方案如下图所示:

 

1.4 总体设计

1.3.1 系统的结构图

 

1.3.2 信息采集工作原理

信息采集工作主要分为三部分,关系库和文件系统数据采集和数据分析、数据写入。

1.3.2.1 数据采集

数据采集主要通过VSP数据库网关系统(VSP Gateway)来完成。VSP Gateway是面向Oracle、DB2、SQL Server、Sybase、MySQL 等主流关系数据库和 Lotus Notes系统的数据交换桥梁,可以整合多种异构数据源,将不同系统的数据实时同步、无缝集成到VSP全文数据库管理系统,协同工作,充分利用VSP全文数据库管理系统的强大检索性能来提供便捷高效的在线检索服务,实现企业级信息资源的统一搜索。

同时,VSP数据库网关系统也支持从政府、企业内部积累的或者正在持续增加的格式文本、XML文件、Excel文件、Access 等文件内提取数据。

VSP数据库网关系统具有以下特点:

l 易用性

创建采集任务步骤简单,可一次性配置,自定义更新周期,自动定时运行采集任务,无需人工干预。

l 实时性

全文数据库与关系数据库的数据实时同步,保证查询结果的准确性。

l 安全性

数据采集不改变原有数据库的存储和业务应用,支持身份验证。

l 开放性

在数据转化的过程中进行数据的加工和整合。

l 支持增量数据

数据采集可以保证持续变化的关系型数据库内的增量数据向全文数据库自动添加。

l 支持多个目标监控

通过并发操作,VSP数据库网关系统可以同时监控多个目标数据库。

l 整合多种异构数据源

VSP Gateway是面向Oracle、DB2、SQL Server、Sybase、MySQL 等主流关系数据库和 Lotus Notes系统的数据交换桥梁,可以整合多种异构数据源。VSP数据库网关系统直接调用各种系统的最底层接口,使用简单,配置方便,现有系统不需要增加任何的接口驱动。

l 异常状态处理

在数据环境运行异常情况下,可以自动报警,保证业务安全平稳运行。

1.3.2.2 数据分析

VKM Server全称是VSP Knowledge Management Server,囊括自然语言处理模块的多个功能。目前支持Windows,Linux下运行,以可配置的方式动态加载功能模块。

自然语言处理工具是为了梳理加工采集后的结构化、半结构化和非结构化信息,比如从非结构化文本中抽取结构化数据。系统将自动采集处理信息,利用知识库的内容自动标引信息,实现概念检索。

1.3.2.3 数据写入

网关系统获取数据后调用VKM进行数据分析,然后将得到的结果写入到vdb数据库供 web 系统调用。

1.3.3 数据库系统

VSP全文数据库(VDB Server)提供海量信息的分布存储和即时索引,并提供全文检索和高级检索功能,是我们实现高效精准检索的坚实基础。由于数据库系统没有用到开源的软件技术,全部由自己研发,具有自己的知识产权,所以具有非常高的稳定性和灵活性。一方面稳定性帮助我们快速地查找到需要的信息,另一方面的灵活性能确保我们随着需求的不断改进实时调整产品,使之能快速的适应新的需求,满足用户的需要。