HITS(Hyper-link-induced topic search)是由kleinberg提出来的基于连接分析的网页排名算法,描述2种类型的网页:
1、权威性(authority)的网页:对于一个特定的的检索,该网页提供最好的相关信息;
2、目录型(hub)网页:该网页提供很多指向其他高质量权威型的网页链接。
由此,我们可以在每个网页上定义“目录型权值”和“权威型权值”2个参数。
1)HITS算法基本思想:
1:好的hub型网页指向好的authority型网页;
2:好的authority型网页是由好的hub型网页所指向的网页;
2)Hits算法
HITS(Hyperlink – Induced Topic Search) 算法是利用HubPAuthority的搜索方法,具体算法如下:
将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:
1.S中的网页数量较少
2.S中的网页是与查询q相关的网页
3.S中的网页包含较多的权威(Authority)网页
通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T.
以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。
V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。
开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u)Ph ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u) 。
其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)PΣ[ a ( q) ]2 ; h ( v) = h ( v)PΣ[ h ( q) ]2 。
HITS算法可以获得比较好的查全率,输出一组具有较大Hub 值的网页和具有较大权威值的网页. 但在实际应用中,HITS算法有以下几个问题:
由S 生成T 的时间开销是很昂贵的,由T 生成有向图也很耗时,需要分别计算网页的APH值,计算量大;网页中广告等无关链接影响A 、H值的计算,降低HITS算法的精度;HITS算法只计算主特征向量,处理不好主题漂移问题;进行窄主题查询时,可能产生主题泛化问题。
相关分析算法大体可以分为4 类:基于随机漫游模型的算法,比如PageRank ,Repution 算法;基于Hub 和Authority 相互加强模型的算法,如HITS 及其变种;基于概率模型的算法,如SALSA ,PHITS;基于贝叶斯模型的算法,如贝叶斯算法. 所有的算法在实际应用中都结合传统的内容分析技术进行优化。Allan Borodin 也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差.将S扩展为基本集合(base set) T,T包含由S指出或指向S的网页。可以设定一个上限如 1000—5000个网页。
开始权重传播。在集合T中计算每个网页的目录型权值和权威型权值。Clever的做法是采用目录型网页和权威型网页相互评价的办法进行递归计算。对于一个网页p,用xp来表示网页p的权威型权值,用yp来表示它的目录型权值,并且用如下公式进行计算:
1.计算各节点的Hub和Authority:
2.赋予每个节点的hub值和authority值都为1。
3.运行Authority更新规则。
4.运行Hub更新规则。
5.Normalize数值,即每个节点的Hub值除所有Hub值之和,每个Authority值除所有Authority值之和。
6.必要时从第二步开始重复。
分享到:
相关推荐
解决visual studio C++ build tools 安装过程中提示安装包丢失或毁坏的问题(密码:1)
Port Authority also allows you to quickly discover hosts on your network and will display useful network information about your device and other hosts. One of the fastest port scanners with host ...
Laravel开发-authority-laravel 一种简单灵活的PHP授权系统
AUTHORITY-CHECK用法
基于相对重要性和用户活力的微博用户权威度评价,冯典,,在本文中,我们提出了一个新的算法来评价微博用户的权威度。新算法是基于我们新提出的用户的相对重要性及用户的积极性这两个概念
VeriSign Universal Root Certification Authority 用于解决安装ps时的问题:the installation cannot continue as the installer file may be damaged
Microsoft Root Certificate Authority 2010 2011.cer证书是微软的一个安装证书,可能很多人都遇到过visual studio 2013和2015安装时提示“安装包丢失或损坏”的问题,其实就是缺少了证书的原因,只需要安装...
此证书安装以后添加到信任区,用于解决Windows 7 平台上安装Adobe系列软件出现The installation cannot continue as the installer file may be damaged. Download the installer file again.详细参见:...
gz-tony-spring-authority-master,整理电脑发现的资源,直接拿出来
用于解决win7 安装vs2015 ,显示包丢失或损坏错误 补充一点:证书要安装在受信任的区域,否则不管用。
springboot+mysql+spring security实现登录认证和权限控制。SpringBoot集成Spring Security
windows系统内的证书,在证书存储下的"受信任的根证书颁发机构"。
安装vs时提示缺少包,可以安装这个证书 证书导出方法: Windows键+R弹出“运行”对话框,输入certmgr.msc,打开Windows的证书管理器。 然后找到“操作”下拉菜单,“查找证书”,分别查找2010和2011关键字即可,找到...
such as Strict Transport Security, Content Security Policy, and pinning Guide to using OpenSSL to generate keys and certificates and to create and run a private certification authority Guide to using...
*Expert advice from a noted SQL authority and award-winning columnist who has given 10 years of service to the ANSI SQL standards committee *Teaches scores of advanced techniques that can be used with...
Win7安装vs2015提示安装包损坏或者丢失解决,安装证书证书microsoft root certificate authority 2010 和 2011,私钥密码为123,安装到受信任的根证书颁发机构,然后重新安装vs2015
Laravel开发-authority 暂无描述
shift, which has given rise to a public that is less deferential to authority and increasingly ready to challenge government. This phenomenon has been interpreted as a ‘crisis of democracy’. ...
authority-源码.rar
本文档内,总结了非常好用的文献下载网站,以及介绍了非常好用的文献管理工具,不需要你再网上找来找去了,绝对良心。