1 引 言
Web信息的迅速增长造成信息过载,用户查找信息需借助搜索引擎,而搜索引擎提供的服务却难以令人满意。一方面由于用户和系统的交互性差,用户清楚自己的信息需求特征却无法描述,另一方面由于搜索引擎自身特性,无法过滤与用户无关的文档。
本文希望采用网络智能思想,通过多智能代理技术,结合用户的基本信息和动态信息建立用户模型和用户群模型,运用信息检索和数据挖掘技术,建立了一个个性化信息检索模型。结合智能体的思想,通过某种方式完成信息查找、过滤和调整。使得系统具有灵活性、智能性和扩充性。
2 Agent技术
Agent是一个实体,具有一定的知识,并能够针对特定目标有效地运用知识求解问题,具有自主性、交互性、适应性、进化性、可通信性、理性等特性。每个Agent会观察用户的动作,主动提供处理环境所需技术,根据用户反馈不断更新检索结果,为实现Web信息检索智能化提供了有力支持。
多Agent是指具有不同目标的多个Agent对其目标、资源等进行合理的安排,以协调各自行为,最大程度地实现各自的目标,它由多个Agent组成,每个Agent又是一个自治计算实体,具有目标、知识、能力。多Agent适应个性化信息检索处理环境所需的灵活性的特点,可以在Web上建立能够完成相应功能的Agent,通过学习不断适应调整并通过交互相互通信合作,协助用户准确、有效地获取信息。
智能代理技术,主要是指具有智能性,可支持高级、复杂自动处理代理软件技术,并能够按照设计者指示要求独立收集信息并在再次过程中自我学习,具有自动性,目标驱动性。连续性和能动性等特点,可以在较高的程度上去分辨识别、理解与应用其用户的需求及其特征。智能代理技术为Internet上自动的信息收集提供框架。基于此功能特性,通过对相关应用和系统的分析,提出了一个基于MAS的实现框架。
个性化信息检索是指根据用户的兴趣和特点进行检索,返回与用户需求相关的检索结果。一般检索过程:首先用户输入查询请求,然后搜索引擎搜索文档,并将搜索结果返回给用户,最后用户查看相关文档或者修改查询请求。查看相关文档或者修改耷诲请求是用户对检索信息的反馈,能够反映用户信息需隶及其变化。通过反馈信息,实现用户个人Agent和用户群Agent的模型更新,完成个性化过滤和协作式推荐2部分功能,因此用户个人Agent和用户群Agent是系统的核心。图1表示该个性化信息检索模型框架结构。
下面对用户个人Agent、用户群Agent、推荐Agent、过滤Agent功能模块在实现机制上进行分析说明。
2.1 用户个人Agent
用户模型的表示采用向量空间模型的方法,将用户模型表示成一个n维特征向量:
向量的每一维由一个关键词及其权重组成。权重表示用户是否对某个概念感兴趣以及感兴趣的程度,文档模型表示成为一个n维特征向量:
向量的每一维由一个关键字及其权重组成。ti表示文档中的关键字j,wji表示关键字j在文档i中的权重。这种方法有利于表达概念在不同用户模型中的重要程度,而且有利于后续阶段匹配任务。用户模型的更新采用动态信息增补技术,动态信息增补对反馈过滤的信息加入到用户模型后调整各向量的权重,与用户无关的特征向量随着权值的减小从模型中被删除。
2.2 用户群Agent
用户群Agent的建立采用聚类技术。聚类是将具有相同特征的项目和用户分类,用于建立用户综合模型。该聚类为个体和类之间的聚类而不是个体之间的聚类。用户模型表示成1个n维特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式计算用户和类的相关度。用户聚类采用关键词匹配法,根据需要设定阀值ε,当用户和类之间相似度大于ε时,说明用户属于该类,兴趣相同。用户群Agent更新算法为用户群模型的更新为追踪推荐模型中符合要求的关联文档点击次数,随着点击次数的增加,推荐用户的个人Agent的权重增加。
2.3 查询Agent
查询Agent一方面负责用户Agent查询引导,另一方面接受用户群Agent的查询扩展。
用户个人Agent查询引导,将用户特征模型的向量根据反馈信息提取用户查询结果的有关信息和无关信息,将其特征向量加入模型作为调节因子,其调节因子为布尔值,表示用户是否感兴趣,从而引导用户查询,修改查询中的关键词的权重。
用户群Agent的查询扩展,用户个人Agent记录用户资源列表,在用户聚类基础上查询,查询资源聚类形成类资源,将类名表给用户反馈过滤得到相关类名表,查询Agent根据相关类名表,更新查询特征向量,进行扩展查询,查看点击兴趣Agent的资源列表。
2.4 过滤Agent
用户模型和过滤文本的匹配包括2方面:用户个人Agent过滤和用户群Agent过滤。用户个人Agent使用关键词匹配法,使用tf-idf计算权重值,然后用余弦公式计算内容相关度。根据需要设定阀值ε,当文档d和主题q之间相似度大于ε时,说明内容符合主题,是用户需要的文档。
用户群Agent过滤采用基于用户一项目评价矩阵的表示法。用一个Rm×n矩阵来表示用户模型。其中m为系统用户数;n为项目数。矩阵中的每个元素rij表示了用户i对项目j的评价,一般是某个实数范围内的整数值。通常值越大,表示用户对相应项目的偏好程度越高。空元素值表示用户没有对相应的项目做出评价。采用这种表示方法的系统多是基于协同过滤的推荐系统。这种表示方法简单、直观,不需要任何学习技术就能够从收集的原始数据(显性的用户评价数据)中直接生成。
2.5 推荐Agent
推荐Agent主要负责推荐关联文档,并更新用户群Agent模型。查询一个n维特征向量{(t1,w1),(t2,w2),…,(tn,wn)},文档模型为一个n维特征向量:di={,……},推荐模型中个人模型为M={d1,d2,…,dm),则推荐模型中关键词在推荐群中单个用户的权值为:
根据权值推荐汇集集合排序,并将和用户有较高相关度的前N个文档呈现给用户。
3 系统功能流程分析
该系统的个性化信息搜索分为个性化过滤是通过建立用户个人Agent进行过滤,而协作式推荐通过建立用户群Agent进行推荐。
个性化过滤过程 个性化过滤流程如图2所示,首先通信Agent将反馈信息发送给用户监控Agent,用户监控Agent抽取反馈信息中的行为信息,然后结合用户注册Agent的基本信息和用户监控Agent的显性信息,用户个人Agent用向量空间模型法提取特征建立模型,最后过滤Agent用关键词匹配方法将个人特征向量和搜索文档进行匹配过滤得到个性化查询结果。
协作式推荐过程 协作式推荐流程如图2所示,首先在用户聚类的基础上,查询特征向量发布到类中各个成员、各个成员查询资源列表;将查询资源汇集,然后聚类资源,形成类资源;将类名表发送给用户,反馈相关类名;最后在类资源中提取相关类资源,经过推荐过滤,形成查看资源。过程如图3所示:
4 模型特点
(1)该模型采用多智能体技术,使得各个部分自主学习、相互协调;使得个性化信息检索中的数据收集,模型表示、模型的学习和模型的更新中功能能够由其中多个Agent更好地协调补充完成,使各个过程具有智能化特点。
(2)充分挖掘用户的信息需求,用户注册Agent主要负责显性信息的获得处理,记录用户的基本信息和用户资源列表、用户直接参与、简单直接。用户监控Agent主要负责隐性信息获得处理,记录用户的动态信息,在不影响用户活动的前提下动态实时获得最新信息。
(3)采用C/S框架结构,通信模块介于之间,负责信息交互,个人用户建模在客户端代理执行,可以保护用户的隐私,用户聚类与合作在服务器端代理实现,可以在充分保护个人隐私的前提下,实现信息资源共享,提高Web信息的覆盖率。
(4)建模技术的使用,一方面利用个人模型引导用户提问,过滤检索结果,使检索更符合个性化要求;另一方面充分利用群用户的信息,在合作的基础上,得到和用户请求相关的推荐结果,查询扩展,实现资源共享。
5 结 语
该个性化信息检索模型提出多智能体的框架结构,运用用户建模和群建模技术,使两者相互结合,相互补充,既注重用户的个性,过滤无关内容,又发挥合作作用,共享相关内容,实现了信息检索的个性化、智能化。
|