基于共同邻居的链路预测新指标
2020-01-04
来源:年旅网
第27卷第1期 2016年3月 中国计量学院学报 Vo1.27 NO.1 Mar.2016 Journal of China University of Metrology 【文章编号1 1004—1540(2015)01—0121—04 DOI:10.3969/j.issn.1004—1540.2016.01.022 基于共同邻居的链路预测新指标 郭婷婷,赵承业 (中国计量学院理学院,浙江杭州310018) 【摘 要】提出一个新的链路预测相似性指标——局部社团结构指标(Local Community Structure,LCS).在 已知网络局部信息的前提下,LCS指标刻画了网络中任意两个节点的共同邻居节点与这两个节点的聚集关 系.在基于真实网络的实验中,我们计算并比较了CN、AA、RA和LCS四个指标在7个不同真实网络中的 AUC评价指标,发现在簇系数较大的真实网络中LCS指标的预测结果好于其他三个指标. 【关键词】链路预测;局部相似性;社团结构;AUC评价指标;簇系数 【中图分类号】TN711;O157.6 【文献标志码】A A new measurement of link prediction based on common neighbors GUO Tingting,ZHAO Chengye (College of Sciences,China Jiliang University,Hangzhou 310018,China) Abstract:We presented a new similarity measurement,the local community structure(LCS)in networks. Under the premise of local information on networks,the LCS measurement characterized the relationship between any tWO nodes in a network with their common neighbors.By a comparison of AUC,CN,AA,RA and LCS in seven real networks,we found that the accuracy of LCS was better than the other three measurements in the networks with big clustering coefficients. Key words:link prediction;local similarity;community structure;AUC;clustering coefficient 网络中的链路预测是指如何通过已知的网络 思路和方法主要基于马尔科夫链和机器学习,后来 Zhul_2 等人将马尔科夫链的预测方法扩展到了 WWW网络的预测中;之后,应用节点属性的预测 方法在实验中得到了很好的预测效果,Li 3_基于 节点以及网络结构等信息,预测网络中尚未产生连 边的两个节点之间产生连接的可能性l_1].链路预测 在很多领域受到广泛关注,实现链路预测的方法也 有很多,可以从不同的角度对网络中的已知数据尽 节点的属性定义了节点间的相似性,可以直接用来 进行链路预测.但是在很多情况下这些属性信息的 可能地进行刻画.在计算机领域,链路预测的研究 【收稿日期】2O15一O9—23 《中国计量学院学报》网址:zgj1.ebpt.vnki.net 【基金项目】国家自然科学基金面上项目(No.61173002),浙江省自然科学基金资助项目(No.LY14F020040). 【作者简介】郭婷婷(1991一),女,山西省平遥人,硕士研究生,主要研究方向为图论、算法设计与分析、复杂网络链路预测 Email:teang@163.COWl _通信联系人:赵承业,男,副教授.Email:cyzhao@cjlu.edu.cn 122 中 国计量学 院学报 第27卷 获取非常困难,而且即使获得了节点的属性信息也 3)RA;引,该指标来源于资源传递过程中共 同邻居作为媒介实行的一个平均分配. 2.1 CN指标(Common Neighbor) 很难保证信息的可靠性(可信性);相比节点的属性 信息,网络的结构信息更容易获得、更可靠,所以基 于网络结构的预测方法在最近几年越来越受关注. 其中,基于网络局部信息进行链路预测的方法比较 常用,基于局部信息的相似性指标 是指那些只通 过节点局部信息即可计算得到的相似性指标,基于 共同邻居的相似性指标很多学者从不同方面构造 了不同的指标来进行相似性检验.在此,我们提出 在链路预测中应用CN指标的基本假设是, 两个未连接的节点如果有更多的共同邻居,则它 们更倾向于连边.CN指标被定义为 S 一I I、(z)n r( )1. 即两节点之间的相似性就等于它们共同的邻 居数. 局部社团结构指标这一链路预测新指标. 1 链路预测 网络是一个包含大量个体及个体间相互作用 的系统,是把某种现象或关系抽象为个体(节点) 及个体之间相互作用(边)而形成的用来描述这一 现象或关系的图.对任意真实网络我们能得到一 个观测网络,但在记录网络的过程中由于信息的 不完全性,观测网络往往会有链路的缺失问题: 1).实际存在但未被探测到(信息丢失);2).暂时 不存在但应该存在或很可能存在(涉及私密刻意 隐藏).网络中的链路预测[1 就是通过已知的网 络节点以及网络结构等信息来预测网络中尚未产 生连边的两个节点之间产生连接的可能性. 任一网络均可抽象为图G一(、/,,E),其中 为网络中所有节点构成的集合, 为网络中所有 边组成的集合.对任意节点z, ∈V,有 r(z):节点z的所有邻居节点集合; : ∈r(z)n r( ),节点 , 的共同邻居; f 0, 与Y不相连 ’ I 1, 与 有连边 ’ C :节点z与节点z共同的邻居数; d :节点z的度; r :节点z与z的紧密性; S :节点z与Y的相似性. 2 基于共同邻居的相似性指标 基于网络局部结构信息的具有代表性的相似 性指标主要有: 1)CNE引,两节点间共同邻居数越多,相似性 越大; 2)A A[ ,度小的共同邻居节点的贡献要大 于度大的共同邻居节点; 2.2 AA指标(Adamic-Adar) Adamic—Adar为每个共同邻居节点赋予了一 个权重:该邻居节点度的对数的倒数,他们将AA 指标定义为 一 ~ 。∈r( r(v)logd ‘ 该指标的意思是两个节点都与一个度比较小 的节点相连,那么这两个节点相连的概率将会增 大.即度小的共同邻居节点的贡献要大于度大的 共同邻居节点,例如在社交网络中,共同关注一个 比较冷门的人或物的两个人之间相连的概率往往 会比关注同一个关注度较高的人或事物的两个人 之间相连的概率要高. 2.3 RA指标(Resource Allocation) 这是周涛_8J等人提出的资源分配指标,该指 标考虑的是未直接相连的两个节点之间的资源传 递过程,它们的共同邻居节点作为传递的媒介. RA指标也是考虑两个节点共同邻居的度的信 息,与AA指标有异曲同工之妙.周涛等人为每个 共同邻居节点赋予了一个权重值:该邻居节点度 的倒数,他们将RA指标定义为 zE r( )nr( ) 去· RA指标相对AA指标来说,只是赋予共同邻 居节点权重的方式不同,当网络的平均度较大的 时候两者的效果才会显示较大的区别. 3 LCS指标的构建 社团结构嘲是指网络由很多社团构成,社团 内部连边紧密,社团之间连边甚少.通过研究网络 的社团结构,可以揭示网络功能性模块组成结构, 刻画网络具有的某些重要性质.众多学者对划分 网络中社团结构的算法进行了大量的研究. 第1期 郭婷婷,赵承业:基于共同邻居的链路预测新指标 123 网络中任意两节点之间的相似性和它们之间 的局部结构密度具有一定的关联度.而社团结构 刻画节点之间的亲疏关系.将社团结构的思想引 首先给出LCS的矩阵计算方式(Matlab语言). 将观测网络中的连边随机划分为训练集E 和测试集E ,E—E +E ,且E n E 一 .随机 入链路预测,考察两个节点的每一个共同邻居节 点与这两个节点本身构成的局部结构的亲疏关 系,可以构造新的链路预测算法. 3.1 LCS指标(Local Community Structure) 选取90 9/6的边作为训练集,剩余1O 的边作为 测试集,通过AUC评价指标来计算各算法的预测 精度.对不同的指标在不同真实网络中的预测精 度100次随机实验取平均. 对任意连边(i,J)∈E t—T 度向量 d—sum(T,2),贝0 f 一(T*丁) ===C , 受网络社团结构的启发,由节点.7C, 及其所 有邻居节点组成的小网络中,定义共同邻居节点 z与节点z, 的归属关系分别为 r一一 ,,. 一 · D—repmat(d,[1,size(T,1)]). 因为 一 表示节点 和由z,z共同邻居组成的局部 结构之间的亲疏关系,值越大表明关系越密切. 我们定义如下的LCS指标: s (r +r )一 zEr(z)n r( ) 一 一(c·/D) :R , 垒一- 一 r(J)d ∈r d女 )女∈r , ( )+ ) , f + 1_ ∈r( )则有如下相似度矩阵计算的Matlab语句: Sim—T*(丁·*R)+(T·*R )*丁 \d 。d / Cx___zS 4- ∈r d ’ ∈r r( )r( )d ‘ 3.3真实网络数据 显然,LCS指标刻画了基于每一个共同邻居 构成的局部结构相似程度的节点相似性. 3.2 LCS指标的矩阵计算 我们在如下7个真实网络中计算LCS指标 及相关的三个指标(CN、AA、RA)的预测精确度 (以AUC指标衡量).实验基本参数设置、测试主 程序、相关的三个指标(CN、AA、RA)的实现均采 根据吕林媛和周涛在文献[4]中给出的链路 预测实验方案和基于相似性的链路预测程序,我们 用文献[5]的标准. 表1真实网络数据 Table 1 Real network data 网络 线虫神经网络 节点数 边数 平均度 簇系数 佛罗里达海湾雨季的食物链网络 美国政治博客网络 红树林河口湿季的食物链网络 美国足球队网络 Internet路由器网络 美国西部电力网 网络的簇系数m (在图论中也叫集聚系数), 明显的稀疏性,不仅簇系数很低,网络节点的平均 度也很小. 3.4实验结果 该系数通常用来刻画网络的局域结构性质,上述 网络根据簇系数,可大概分为两类:前五个网络的 集聚性表现得较为明显,可视为一些具有社团结 构的网络;而路由器网络和美国西部电力网具有 我们将上述四个相似性指标在7个真实网络 中的预测精确度(AUC指标衡量)记录在表2中. 124 中 国 计量从上表中可以看出LCS指标在前五个网络 中的预测精确度(AUC指标衡量)好于其他三个 指标,而在后两个网络中表现平平. 4 结 论 网络的社团结构是内部联系高度聚集,外部 联系相对稀疏的网络局部结构.一个网络的簇系 数越高,说明该网络在某种意义下的聚集度越高. 网络中两个节点z和 的LCS指标刻画了它们 的所有共同邻居z属于z和 ( 和2)构成的局 部结构的聚集程度.因此,我们分析LCS指标可 以在一些簇系数较高的真实网络中具有较好的预 测效果. 对7个拥有不同簇系数的真实网络仿真实验 表明我们的分析是合理的,LCS指标能够在簇系 数较大的网络中提高链路预测的精确度. 【参 考 文 献】 [1] 吕琳媛.复杂网络链路预测[J].电子科技大学学报,2010 39(5):65卜661. I Yu Linyuan.Link prediction in complex networks[J] Journal of University of Electronic Science and Technology 2O10,39(5):651—661. 学 院学报 第27卷 [2]ZHU J,HONG J,HUGHES J G.Soft-Ware 2002:Compu’ ring in an Imperfect World[M].Berlin Heidelberg:Spring— er,20O2:6O一73. r3]LIN D.An information—theoretic definition of similarity [c]//Proceedings of the Fi ̄eenth International Conference on Machine Learning.San Francisco:Morgan Kaufman Publishers,1998:296-304. r4]NOWELL D L,KLEINBERG J.The link prediction prob— lem for social networks[J].Journal of American Society for Information Science and Technology,2007,58(7):1019 1031. [5] 吕琳媛,周涛.链路预NEM].北京:高等教育出版社,2013:8. g6]LORRAIN F,WHITE H C.Structural equivalence of indi— viduals in social networks[J].The Journal of Mathematics Sociology,1971,1(1):49—8O. r 7] ADAMIC L A,ADAR E.Friends and neighbors on the webEJ ̄.Social Networks,2003,25(3):21卜230. [8]ZHOU T,LYU L,ZHANG Y C.Predicting missing links via local information ̄J].The European Physical Journal B, 2009,71(4):623-630. E9]郭世泽,陆哲明.复杂网络基础理论[M].北京:科学出版 社,2012:265 270. [10]FENG X,ZHAO J C,XU K.Link prediction in complex networks:a clustering perspective[J].The European Phys— ical Journal B-Condensed Matter and Complex Systems, 2O12,85(1):1 9.