全文数据库

产品描述

 

VSP全文数据库是一种基于文档的非结构化数据库系统,提供数字、时间、文本等结构化信息和大文本、图片、音频、影像等非结构化信息的海量存储与检索,其核心功能是对非结构化信息提供全文检索的能力,支持各种结构化信息(元数据检索)与非结构化信息(全文检索)的多种复杂的组合检索功能。

 

RDBMS的区别

VSP数据库的数据实体单元是文档,RDBMS的数据实体单元是是记录。

VSP文档作为一个完整的逻辑实体单元,一般是不可拆分的,而RDBMS的记录,根据性能设计需要,可以拆分为若干个逻辑记录的组合。

VSP数据库不需要遵循RDBMS的范式约定,如VSP文档的字段可以是多值。

RDBMS使用表结构之间的关联关系,而VSP数据库则完全是文档个体之间的关联。

RDBMS提供了事务处理的ACID能力,而VSP数据库关注的核心是检索服务功能。

对于只提供检索的在线服务系统,VSP数据库是一个只读的数据库系统,因此可以提供RDBMS所不能达到的检索性能。

 

在实际的数据库应用部署过程中,VSP数据库也可以和RDBMS无缝集成、协同工作,在数据的生产、获取、加工和交互过程中使用RDBMS,充分利用RDBMS的事物处理能力,通过VSP Agent for RDBMS工具同步到VSP数据库中,充分利用VSP数据库的检索性能来提供高可用的在线检索服务。

二、主要特点

 

体系结构

基于C/S的体系结构设计,支持通用的B/S应用系统结构。

跨平台的系统设计,支持Windows,Linux/Unix操作系统。

多线程的程序设计,支持大量的并发用户访问。

支持64位操作系统,充分发挥64位系统的性能。

提供集群服务能力,支持更大规模的数据访问。

组件化模型设计,可以提供独立的嵌入式全文检索引擎。

 

数据存储管理

数据字段类型包括:数字、日期、字符串、大文本和二进制类型。

对于图片、音频、影像等流式数据,以附件的方式存储和管理。

系统缺省使用UTF-8字符集,也可以由用户设置字符集。

支持用户设计的数据库及字段结构的建立、更改和删除操作。

字段结构支持唯一主键、长度、格式限制和缺省值属性。

可以支持单篇文档的实时插入、修改、删除和读取的操作。

所有的字段均可以是多值的,完全非结构化的数据管理系统。

通过文档链接指针的方式来建立和保持文档之间的关联关系。

数据和索引使用CRC校验机制,保障了数据及索引的一致性。

高效的数据和索引压缩算法,空间膨胀率约为-0.2 ~ -0.4。

 

检索和排序

支持中英(西)文混合检索,中文自动分词,英(西)文词根处理。

支持按词索引、按字索引、按关键词索引,适应不同检索应用的需求。

支持按段、句、位的特征来构建索引,满足特殊领域检索应用的需求。

允许使用文档中的任意字、词、短语、句子和片段进行检索。

支持各种方式的组合检索、匹配检索、相近位置检索和二次检索。

检索结果可以按检索词的相关性或文档中的元数据属性进行排序。

检索结果可以对若干个元数据属性按照优先级顺序进行组合排序。

检索结果可以按文档中的元数据属性进行动态的快速自动分组。

基于成本优化的查询算法,实现检索表达式的自动过程优化。

充分使用CACHE技术,支持更多的并发用户访问,大大提高了综合查询速度。

独特的索引分区与分离技术,大大提高了简单逻辑组合方式的检索效率。

针对高频词的索引优化策略,不存在高频词在特定查询方式下的检索效率瓶颈。

 

概念检索

l 索引项是描述知识的概念,不再是普通的字或词。

l 需要建立完备的描述特定概念空间的知识词典。

l 检索表达式中包含更多的概念相关的约束条件。

l 概念检索能够更好地支持跨语言检索和同义词检索。

l 概念检索能够更加精炼(Refine)检索的结果。

l 概念检索能够产生更好的排序效果和用户体验。

 

用户权限管理

支持系统级、数据库级和文档级的多种安全控制机制。

系统支持用户和群组,管理员具备所有的操作权限。

数据库支持角色,通过用户的角色配置来灵活地设置权限。

系统定义了创建者、编辑者、作者和读者等多级操作权限。

数据库中的每一篇文档均可以指定该文档的作者和读者。

可以监控当前访问的用户状态,以及用户的资源使用状况。

 

系统维护

提供数据的备份机制,在出现异常情况下可以恢复数据。

支持完全备份、增量备份、差异备份等多种备份方式。

完备的操作日志记录,提供归档日志的管理与维护。

支持数据的自动整理和重建,可以节约硬盘存储空间。

支持索引的自动归并、优化和重建,可以提高检索的效率。

数据的导入和导出,以标准XML格式文件来进行数据交换。

 

数据访问接口

提供基于标准C的API接口,支持跨平台的基础开发接口。

面向对象的接口封装,支持Java应用的Java Beans接口。

基于COM的ADO接口封装,支持.Net平台的API接口。

独立提供面向桌面开发的嵌入式数据库系统的API接口。

基于组件模型开发,内置数字、文本和全文的索引组件接口。

可以独立提供数字、文本和全文的内存索引组件接口。

集群服务器

l 数据分布在不同的数据库上,可以大大扩展数据的规模。

l 数据冗余存储在多个数据库上,可以提高并发服务能力。

l 因为存在数据的冗余,可以防止单点故障造成的系统不可使用。

l 实现在线服务与离线数据收集之间切换,提高系统的在线服务能力。

l 与数据库服务器保持相同的接口,有利于系统体系结构的伸展。

l 在数据收集过程中,各单个数据库的数据自动分发与均衡能力。

l 在检索服务时,支持各单个数据库检索结果的统一排序功能。

性能指标

在G级数据集合上检索速度一般不超过0.2s。

索引的空间膨胀率约为-0.2 ~ 0.4之间。

可以支持并发用户数200个以上。

多用户并发检索,每秒可响应100个以上查询。

原数据装载每小时高达2.5GB容量以上。

数据库能够支持的最多记录数目可达40亿。

能够支持的最大字段数目为65536。

数据库负荷工作时所占系统内存约为120M。

实测过程中12个小时查询总量为41.7万次以上。

 

VSP数据库在百万量级文档(102万篇文章,3.86GB),Intel Pentium D 915(1CPU,1G内存,SATA7200转硬盘,MS Windows2000)环境下的查询速度测试结果:

 

类型 检索表达式 检索时间 检索文档数
含特高频词的检索表达式 中 & 上 1.047s 491427条
中国 & 人民 0.297s 77673条
新华社 & 北京 0.125s 9959条
一般检索表达式(其中也有一些检索表达式含有高频词) 中国 0.218s 316803条
老舍 0.047s 448条
环境保护 0.098s 4934条
文化大革命 文革 0.063s 472条
计算机 电脑 0.172s 5489条
农业学大寨 0.063s 31条
毛泽东 & 尼克松 0.281s 195条
石油开采 0.015s 336条
计算机 & 网络 0.219s 7433条
世界纪录 & 跳高 0.125s 90条
Urltime < 1997-02-14 & 中国足球 0.021s 0条
中华人民共和国 0.250s 10570条
华人 0.016s 8556条
随着朱哲琴新专辑中《夕阳西下》MV在各大网站热播,她的新专辑造型照和封面也获得了相当不错的反响。 0.110s 2条
版画 木刻  中国艺术 0.019s 5条
中华人民共和国  陕北 0.234s 69条
市场经济  计划经济 0.453s 1606条
党中央新的领导核心 0.015s 0条
中国旅游事业 0.016s 5条
中国的改革开放政策 0.375s 39条
春天的故事 0.016s 77条
“一国两制”的构想是成功的 0.046s 0条
我国少数民族 0.078s 0条
中国 & 美国 & 日本 0.281s 21725条
北京 & 旅游 0.141s 12636条