自然语言处理系统

一、产品描述

 

维思比自然语言处理工具是维思比科技(北京)有限公司(以下简称“维思比”)为信 息处理而研发的软件产品。信息处理是信息采集之后的另一个重要环节,能否对已经获取的 海量信息进行有效整理,制约着信息应用的最终效果。维思比自然语言处理工具涵盖了维思 比的多项中文信息处理技术,包括八大独立模块:文本分类、文本聚类、相似性检索、自 动摘要、信息抽取、元数据标引、相关短语检索、敏感信息过滤等模块。所有模块都支持 多语种,目前可支持中、日、韩、俄、英、西、阿等十几种语言。

维思比自然语言处理工具可以广泛应用于不同领域:搜索引擎、全文检索、知识管理、 情报分析、信息监控、信息过滤、数字图书、电子商务等。可以满足用户的不同应用需求: 文档归类、专题汇总、知识地图、趋势分析、关联分析、热点发现、主题追踪、排查重稿、 数据抽取等。

 

二、模块详述

 

 

文本分类模块

文本分类是指按照一定的分类标准或者分类参考,进行有指导的自动学习,将需要处理 的文本自动划归到不同类目的信息处理方式。

文本分类模块提供两种分类方式对文本内容进行分类:基于统计的文本分类和基于规则 体系的文本分类。基于统计的文本分类方式,用户可以加载语料库,模块进行分类训练自动 学习。基于规则体系的文本分类方式,用户可以编写分类规则,模块根据用户自定义规则进 行自动分类。两种文本分类方式可以结合使用,提高分类的准确性。

文本分类模块支持循环训练,用户可以根据应用的情况随时提交反馈,即时修改补充语 料库和规则库,模块可以自动循环训练、持续学习,不断提高文本分类的应用效果。 文本分类模块支持多级分类,用户可以根据需要设定分类层级,设置多级分类体系。 文本分类模块支持复分,同一文本可以同时归入不同类别,应用灵活。 文本分类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调  用知识库资源,进一步提高分类的精确度。

文本分类准确率一般在 85%以上,速度为每秒 800-1000 篇之间,符合工程化应用需求, 可以节省人工判断时间,提高工作效率。

文本聚类模块

文本聚类是指在没有类目体系的情况下,按照一定的要求,将相近、相似或者相同特征 的文本聚合在一起的信息处理方式。

文本聚类模块建立在相似性计算基础之上,对同一层级的文本根据相似性进行自动聚 合。

文本聚类模块支持多级分类,可以聚合成多层的类目体系。

文本聚类模块应用统计方法,利用向量空间模型对文本的特征空间进行自动判断。

文本聚类模块自动提取命名参考。对同类文本自动提取主题词和摘要,作为类别特征, 为用户最终确定主题名称提供参考依据。

文本聚类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,进一步提高自动聚类的精确度。

文本聚类准确率一般在 85%以上,速度为每秒 800-1000 篇之间,符合工程化应用需求, 可以节省人工判断时间,提高工作效率。

 

相似性检索模块

相似性检索是指利用文本的内在特征信息进行智能分析,判断文本间的相似性与重复 性,自动进行相似性判断及重复信息排除的信息处理方式。

相似性检索模块支持基于文本内容的相似性判断,用户可以自定义相似度阈值,实现不 同程度的内容相似性判断或排重。

相似性检索模块还支持基于标题或线索词的文本相似性判断,更加灵活。

同时,相似性检索模块支持基于网页信息指纹的相似性判断,可以自动提取网页摘要、 关键词和主题词等特征,自动生成唯一序列,自动判断信息指纹是否相等,进而假定网页内 容相似,在网页检索时更高效便捷。

自动排重的速度为每秒 170-270 篇左右。

 

 

自动摘要模块

自动摘要是指运用语言规则,智能分析文本内容,自动提取关键词生成主题词,自动提 取中心句形成内容摘要的信息处理方式。

自动摘要模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,分析语义的相关性,提高主题词和摘要的质量。

自动摘要模块支持线索词,支持领域性摘要。用户可以建立专业词典,自定义线索词, 模块自动调用专业知识库资源,围绕线索词生成专业化、领域性、有偏重的摘要,更个性化, 更有针对性。

自动摘要速度为每秒 170-270 篇左右。自动摘要有效地解决了人工标注的繁琐,方便用 户快速了解文本内容,无须一一浏览文本全文。

 

信息抽取模块

信息抽取是指建立在分词基础之上,运用词性分析、命名实体识别、网页特征分析等方 式,从规范程度各异的文本里自动抽取结构化数据的信息处理方式。 信息抽取模块支持结构化文本的数据抽取,主要包含自动抽取时间等格式化数据。 信息抽取模块支持半结构化文本的数据抽取,充分挖掘 html 等半结构化文本的潜在信  息,自动提取各类结构化数据。

信息抽取模块支持非结构化文本的数据抽取,自动抽取人名、地名、机构名等结构化的 实体概念信息。

信息抽取模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,分析概念的上下位关系,实现更智能的信息抽取。

 

 

元数据标引

元数据标引是指利用知识库词典描述资源,自动分析信息抽取结果,自动发现、补充、 纠正不规范的数据,使数据规范化、格式化的信息处理方式。

元数据标引模块需要知识库资源的支持,用户根据实际应用需要建立相应的知识词典, 模块自动调用知识库资源,对文本进行语义分析,根据概念的关联关系,自动纠正错误信息, 自动补全缺失、遗漏的信息,使数据统一规范,便于存储和应用。

 

 

相关短语检索

相关短语检索是指利用知识库资源,自动分析用户检索的表达式,自动提供与用户检索 意图相关的检索表达式供用户选择的信息处理方式。

相关短语检索模块支持语义分析,用户建立可以建立知识词典,模块自动调用知识库资 源,根据概念的关联关系,为用户提供相关的检索表达式作为备选。 相关短语检索模块支持用户行为日志分析,用户可以利用访问日志建立词典,模块自动 调用词典资源,自动分析用户检索意图,为用户提供相关的检索表达式作为备选。

 

 

敏感信息过滤

敏感信息过滤是综合运用多种方法,自动分析文本内容,自动筛选敏感信息,自动过滤 特殊信息的信息处理方式。

敏感信息过滤模块综合应用统计、规则等多种方式对信息进行多元筛选,只要符合其中 任一方式的任一筛选条件,信息即被自动过滤,确保没有遗漏。

 

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: