智能网络信息采集系统

一、产品描述

 

维思比智能网络信息采集系统(VSP Spider)的主要功能:实时监控和采集特定主题或领域内的目标网站的相关网页,分析采集网页的源文件内容并精确获取主题相关的正文和元数据信息,对获取的信息进行过滤、信息抽取、情感分析、消重和自动分类等数据加工处理,将结果存储到指定的数据库系统或XML格式文件中,提供自动获取信息的数据通道。

 

维思比智能网络信息采集系统的目标:全面获取主题或领域内的所有主题相关网页,精确分析并获取所有描述主题需要的元数据信息,从而获得主题或领域内多层次、多角度、更精确、更规范、更完备的高质量的数据。

 

VSP Spider与通用搜索引擎的区别

l 通用搜索是面向公众的水平搜索系统,VSP Spider是更适用于行业应用的垂直搜索系统。

l 通用搜索覆盖的网站范围非常广,如Google的网页数量就超过了100亿,而VSP Spider只是针对一些领域相关的网站或栏目,网页数量一般在千万以内。

l VSP Spider更加关注采集网页的质量,需要避免采集任何无用的垃圾网页。

l 通用搜索只需要分析出网页中的文字内容,而VSP Spider则需要精确提取应用系统所关心的网页中指定的元数据信息。

l 对于VSP Spider已采集网页的分类、抽取和标引等数据加工的要求更加专业和精确。

l 通用搜索提供基于关键词的全文检索,结果只提供TOP的若干个,而VSP Spider需要提供包括元数据、全文、智能扩展等全方位检索功能,并要求返回全部的查询结果。

 

二、系统结构图

 

 

三、模块列表

 

功能模块 功能描述
基本 新闻采集 实时监控和采集目标网站的新闻,可准确提取正文、作者、标题、来源、时间等元数据,采集结果可存储到各种主流的数据库系统或XML格式文件中。可采集的网站数目不作限制。
用户评论采集 实时监控和采集论坛或用户评论,可自动分解每一个回复的内容,支持主流的列表和树状结构评论,准确提取每个回复的正文、作者、标题、时间等元数据。
可选 元数据采集 能够自动识别网页结构信息,自动抽取网页中的元数据信息,抗干扰能力强,支持网页库级的采集需求,对于部分不能自动识别的网站,支持可视化的模板配置手段,操作简单易用。
自动分类、网页消重 提供基于文本内容的自动分类,对于互联网相互转载的文章,提供基于内容的网页自动消重。
新闻热点发现 自动发现最近关注度较高的热点新闻,可以同时支持多个频道或类别的热点新闻发现。
用户评论分析 对于论坛或新闻评论的用户互动内容,可以提供针对特定实体目标及其属性特征的用户情感分析。
二次开发环境 提供VSP脚本语言开发环境,内嵌VSP源代码的编写、调试和运行的IDE平台。

 

(注:维思比智能网络信息采集系统默认绑定基本功能模块,用户可根据需要自主选择其他功能模块。)

 

四、主要特点

 

面向主题搜索

l 面向特定主题或领域的专业化搜索引擎。

l 描述特定主题特征的规则库和资源库建设。

l 描述主题或领域特征的元数据结构规范。

l 主题网站和相关频道资源的自动发现工具。

l 发现主题资源的准确率和召回率评估。

l 基于主题的网页重要性(Authority)评估。

 

采集控制策略

l 单机能够支持超过50, 000, 000规模的网页采集。

l 多线程并发采集,支持多主机的分布式采集。

l 基于网页链接重要性评估的网页优先调度策略。

l 限定在目标网站或频道范围内的采集扩展策略。

l 基于网页链接特征及相互关系的采集过滤策略。

l 避免对单个目标网站压力过大的优雅采集策略。

 

实时网络监控

l 网页更新检查的周期预测算法,能够及时发现最近变化的网页。

l 多种更新的运行时间计划,按特定的周期或指定的时间段来执行。

l 针对不同的采集源或采集频道可以设置不同的运行时间计划。

l 缺省使用压缩的快速下载方式,高效的网页更新判断算法。

l 可以根据网络当前的性能状况来自动调整采集网页的速度。

l 预设监控目标网站的各项阈值,提供异常情况发生的报警机制。

 

用户登录验证

l 支持通过代理服务器访问网络的采集方式。

l 支持Web服务器提供的弹出对话框的验证方式。

l 支持Web应用层验证,需要提交用户、密码等参数。

l 支持交互式提交图片数字验证码的验证方式。

l 支持更复杂网络验证方式的Cookie管理。

l 能够采集被加密技术处理过的网页内容。

 

精确数据获取

l 功能完备、高性能、易扩展、容错性强的DOM树结构分析。

l 基于分区的网页结构分析思想,辅助完成更加精确的数据定位。

l 可视化的区域选择配置,无须更多了解源网页的内部结构。

l 概览页面选定区域内包含链接的规则识别、地址过滤和转换。

l 细览页面选定区域内包含数据的精确识别、格式转换和内容转义。

l 支持一个网页可以分解为若干篇文档(如论坛的每一个回复)。

l 支持一篇完整文档可以拆分为若干个连续的网页(如多页的报道)。

l 支持若干个相关网页或附件的链接之间关联关系的建立。

 

智能信息抽取

l 基于视觉的网页自动分区技术(VIPS)。

l 网页分区后的区域类型和特征的自动标注。

l 网站内容组织结构(网站地图)的自动识别。

l 频道范围内主题网页分区特征的自动学习。

l 网页正文内容区域的自动识别和智能内容提取。

l 网页链接区域的自动识别和智能链接过滤。

l 主题网页中包含元数据的自动模式化信息抽取。

l 网页中图片及关联文字、表格信息的自动识别和提取。

 

自然语言处理

l 命名实体识别,人名、地名和机构名、时间和货币等。

l 基于统计的自动分类和基于规则的分类,支持多级和复分。

l 网页包含关键词的自动提取,网页摘要的自动生成。

l 网页信息指纹的自动识别,实现基于内容的网页消重。

l 基于相似度的网页自动聚类,实现相似网页的计算。

l 基于权威知识库体系,辅助元数据信息的纠错和补全。

l 热点事件的自动发现、追踪报道和落地统计。

l 互动社区或BBS论坛的用户情感的倾向判断。

 

数据全面多样

l 可以采集中、日、韩、俄、英、西、阿等多个语种的网页数据。

l 支持中文繁体(BIG5)到简体(GB2312/GBK)的自动转换。

l 能够采集PDF、DOC等文档,并且自动抽取文档的正文内容。

l 能够采集各种格式的图片,也可以采集由用户指定类型的附件。

l 内嵌JavaScript引擎支持,可以采集AJAX交互应用返回的数据。

l 可以自动采集Web应用系统中后台数据库自动发布的数据。

l 能够采集Web论文库、BBS论坛、博客和RSS等应用产生的数据。

l 单独提供桌面搜索、FTP搜索和邮件搜索的采集工具。

 

应用系统集成

l 监控采集源和组织频道树的系统配置、测试、运行控制和日志管理。

l 采集源配置的集成开发环境,可视化、简单操作、宏函数和脚本语言。

l 提供标准网页属性数据,如网址、标题、大小、时间和内容等。

l 支持面向主题领域的由用户自定义的精确元数据结构描述。

l 数据可以存储到Oracle、DB2、SQL Server、Sybase和MySQL中。

l 数据也可以存储到维思比全文数据库、Access和XML格式文件中。

l 多语种数据缺省使用UTF-8字符集,也可以由用户指定字符集。

l 国际化应用的信息采集器工具,通过皮肤切换支持多种语言环境。