您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页改进的SIR模型在微博信息传播中的应用

改进的SIR模型在微博信息传播中的应用

来源:飒榕旅游知识分享网
~ AppI ication of Improved SIR Model on Information Diffusion in Microblog 杨曦刘艳华 Yang Xi Liu Yanhua (厦门大学信息科学与技术学院,福建厦门361005) (School ofInformation Science and Technology,Xiamen University,Fujian Xiamen 361005) 摘要:研究微博中信息的传播规律对舆论预测与管控、市场营销等方面具有重要意义。当前的信息传 播模型大多忽视了不同信息问、不同用户间的个体差异。为解决这一问题,本文选取了影响用户浏览和转发 信息行为的特征,采用集成逻辑回归与SVM的二分类算法预测个体行为。预测多个用户对于同一信息的浏 览与转发行为构成了本文中的信息传播模型。结果表明,该模型能较好地预测现实微博网络中的信息传播过 程。 关键词:微博;浏览;转发;信息传播模型 中图分类号:TP391 文献标识码:A 文章编号:1671—4792(2015)02—0012-05 Abstract:Studying diffusion rules of information in microblog is signiifcant for public opinion predicting and controlling,marketing and etc.The most current information diffusion models inore gthe diversiy of tdiferent in— formation and different users.In order to solve the problem,this paper,by choosing the characteristics of users’ browsing and retweeting behavior,uses binary-class classiifcation algorithm based on logistic and SVM to predict individual behavior.In this paper,the information difusion model is to predict users’browsing and retweeting be— havior for given information.Simulation result shows that this model can better predict the process of information diusifon in real microblog network. Keywords:Microblog;Browse;Retweet;Information Diusifon Model O引言 近年来,随着在线社交网络的飞速发展,相关信 息传播研究已逐渐成为国内外学者关注的热点。现有 微博,微型博客(MicroBlog)的简称,是一种通 过发布、关注、转发机制分享、获取、传播信息的实时 广播式社交媒体平台。微博中的信息传播具备一传 多的几何级增长特点;与传统媒体渠道相比,信息的 传播速度、广度和效率都得到了极大提高,现今微博 已经成为消息扩散和舆论传播最重要的平台之一。 的在线社交网络信息传播模型可划分为三大类【1】:第 一类,基于传播过程的模型,描述了用户对信息的接 受状态与状态变化。文献[2]基于SIS模型,构建了博 客网络中信息级联传播模型;文献[3]建立了基于 SIR模型的在线社交网络信息传播模型;文献[4]将 微博的信息交流过程分为信息发布、信息接收、信息 加工、信息传播四个阶段,并提出了竞争窗口模型。 第二类,基于用户影响力的模型,通过节点和节点间 因此,通过构建信息传播的数学模型来定量分析信 息在微博网络中的传播规律对舆论预测与管控、市 场营销等方面具有重要的理论价值与现实意义。 的影响力预测信息的传播方向和传播概率。文献[5] 提出了一种基于对节点影响力的评估预测信息传播 趋势的模型;文献【6】提出了一个通过用户个体的多 种特性评估用户影响力的多阈值信息传播模型。第 三类,基于转发因素的模型,将微博特征与其被转发 次数进行统计分析,建立模型预测一条给定微博的 转化为免疫用户。 (3)浏览概率P 和转发概率P 为常数。 3改进SIR模型在微博网络信息传播中的应用 如前所述,经典SIR模型应用于微博网络信息 传播中时,每个用户的浏览概率和转发概率都一样, 为常数。但现实情况是,由于个人微博使用时长和个 改 进 的 ∽ 模 卫 转发总数。文献【7]分析了是否包含URL等微博特 征对转发行为的影响;文献[8]分析了Twitter的转 人兴趣偏好等因素的不同,不同用户对同一信息的 浏览概率和转发概率极有可能是不同的;由于微博 型 在 微 博 发行为如何受到用户博文和时间因素的影响。 第一类模型未考虑不同用户间的个体差异,第 二类未考虑不同微博间的特征差异,第三类缺少信 息的整体传播过程。本文在三者之间找到结合点, 将不同用户问的个体差异和不同微博间的特征差异 融人信息的整体传播过程中,建立了改进的SIR信 息传播模型,并通过真实的数据进行仿真分析。 1微博网络信息传播规则 以新浪微博为例,一个用户发布信息后,该信息 出现在此用户的每个“粉丝”(跟随者)的微博主页 面,每个粉丝以一定的概率浏览该信息,然后根据自 己对该信息的感兴趣程度,选择是否分享转发该信 息。 2经典SIR模型在微博网络信息传播中的应用 给定微博网络中一个子网络,子网络中的用户 分为三类:未感染用户s、感染用户I和免疫用户 R。给定一条信息;感染用户表示此用户传播,即发 布或转发了该信息;免疫用户表示此用户已经浏览 过该信息,但是选择不转发;未感染用户表示此用户 没有浏览过该信息,但有可能之后会浏览此信息并 选择是否转发,即由概率转变为感染节点或免疫节 点。定义以下传播规则吲: (1)感染用户只能将信息传播给其粉丝。 (2)未感染用户一定的浏览概率pb在浏览感染 用户传播的信息后,依据其对信息所持态度,以转发 概率P 转化为感染用户,或者以l—Pr的免疫概率 信 内容与个人兴趣的契合度,同一用户对于不同信息 息 传 的转发概率也极有可能是不同的。所以在模型中将 播 中 浏览概率和免疫概率设为常数是不合理的,因此本 的 应 文针对这一问题提出了在微博网络信息传播中应用 用 的改进的SIR模型。该模型建立在微博子网络 G=<U,E>上,其中节点u∈u表示网络中的所有用 户,边(u,v)∈E表示用户u与v之间的关注关系, 用户只转发来自其关注用户的消息。 3.1个人消息浏览和转发预测模型 对消息是否浏览和是否转发的预测问题是典型 的二分类问题;在消息浏览、转发预测问题中,影响浏 览、转发的屙l生特征与转发行为呈现出线性关系t9l;在 给定用户网络、历史转发消息集合的情况下,可以应 用适合线性情况的分类算法对网络中任一用户浏览 和转发任一微博的概率和结果进行预测,常用的算 法有逻辑回归算法和SVM算法等。但传统的逻辑 回归方法一般以0.5为分界点,对于处在0.5附近的 两个区间的样本点的误判风险较大;而传统的SVM 算法需要占用较大的内存空间。所以本文采用集成 逻辑回归与SVM的二分类算法【Ⅻ,它综合了SVM 和逻辑回归这两种算法的优点,减弱了这两种算法 的缺点对计算过程和结果的影响。因为除了特征集 合不同外,浏览行为预测算法和转发行为预测算法 的步骤完全相同,故仅详述浏览行为的预测算法步 骤。具体应用规则如下: (1)基于训练集,计算权值向量121,即: 1 3 ~ Pb.(y =1 I )= 式(1)中,E (r,G)为影响用户U浏览行为的特 征集合;Yu表示用户u的浏览行为,取值为0或1, 为1表示用户U对消息r已进行浏览,反之亦然;采 用极大似然法估计权值向量a。 (2)将可能的逻辑回归输出概率值划分为四个 等大小的连续的区间I ,I ,I ,I4,如图一所示。 图一概翠区间划分示葸圈 (3)计算训练集的逻辑回归输出概率值,并依据 输出概率值在已划分的I。,I2,I,,I4这四个概率区间 的对应情况将训练集分为四个子集G ,G ,G ,G , 使用SVM算法计算子集G2和G3的输出概率值。 (4)分别计算逻辑回归和SVM算法在子集G2和 G,上的分类正确率,记为fi ,f= (i=2,3)。 (5)计算测试集的逻辑回归输出概率值,输出概 率值为yiL(i=1,2,3,4),并依据输出概率值在已划分 的I ,I ,I ,L这四个概率区间的对应情况将测试集 分为四个子集 , :,M3,M4。 (6)子集 ,M4直接采用逻辑回归输出概率值。 在子集 ,M3上,如果fiL>fis时,选择逻辑回归输出 概率值yiL;反之,则再使用SVM算法计算并选择其 结果作为输出概率值 。 (7)若输出概率值大于0.5,则判断用户已浏览 过该信息;若输出概率值小于0.5,则判断用户未浏 览过该信息;若输出概率值等于0.5,则进行等概率 的随机判断分类。 3.2特征选取 通过对微博用户行为特点的分析,影响浏览行 为的因素主要有:用户活跃度、用户接收给定信息的 总次数和给定时间内用户接收的所有信息总数【11]。 (1)用户活跃度 因为微博自身的字数限制,阅读不同微博所用 时长可视为相同,以便简化模型。用户活跃度越高, 则相同时间内浏览微博数量就越多,可能浏览到某 条信息的概率越大;反之亦然。但用户活跃度无法直 接统计,故通过用户微博数进行表征。 (2)用户接收给定信息的总次数 某一用户关注的人中可能有多人对同一信息进 行了发布或转发,这会影响到该用户浏览到此信息 的概率。 (3)给定时间内用户接收的所有信息总数 使用微博的时间有限,接收到的信息也越多,错 过了某一信息的概率越大。一般而言,关注的用户越 多,相同时间内接收到的信息也越多。 综上所述,选取了3个影响浏览行为的数值化 特征:用户微博数、关注用户对给定信息的已有转发 次数、用户关注数。 关于影响微博转发行为的因素有不少研究【 , 可分为发布者的社会影响力A、微博文本属性B、用 户个人属性C、微博内容与用户兴趣D这四大类。 具体的数值化特征如表一所示。 3I3改进的SIR信息传播模型 通过分析和选取影响用户浏览、转发行为的特 征,利用3.1所述的步骤可以分别算出个体用户的 浏览和转发概率。多个用户浏览后的转发行为形成 了信息的整体传播。本文将信息的整体传播过程与 表一影响微博用户转发行为特征列表 特征类捌 特征序号 l 数据堂是国家相关部门支持建设的科研数据资源共 享的公益性服务平台由于新浪微博的限制,最多只 。特征名称 发布者的粉丝数 改 A 2 3 4 发布者是否为实名认证 发布者平均每条微博被转发的次数 是否包含刚片 能获取到每个用户的200个关注人信息。本文在数 妲任r}1坦 7日古 沣单 口不进 的 ∽ 卫 1 r nn幺活 阳白 1U \,IJ/ HJ I 4^ ^J 7 一/\1上/ ,J、I-I luuv B 5 6 7 是否包含标签 是否包禽URL 用户转发微博总数 / 人信息以及这 用户一段时间内 :发布的所有微 博共27142条。 了 士 J 5rJ ;肛 J八 见千 及1 爪^妯I恼特告  J J,j J , ̄illI艚刊 1关 口w止 模 型 在 微 博 C 8 用户粉丝数 9 微博r与微博热点话题的Jaccard值 D i0 微博r与刷户“的Jaccard值 个体用户的浏览转发行为分析相结合,建立了改进 的SIR信息传播模型。 在改进的SIR信息传播模型中,对于一条微 博,定义未浏览的用户为未感染用户S、浏览后转发 的用户为感染用户I、已浏览但未转发的用户为免 、 I:1:I^n 士十I看 油 阳^ a,n、c1,1、 c、 (n);感染用户集合I(0),I(1),…,I(n);免疫用户集 合R(0),R(1)…,R(n)。具体过程如下: (1)数据预处理。选定子网络,获取目标网络的 历史数据,子网络中的所有用户置为未感染用户s, 并加入集合s(O)中。 (2)在初始时刻即时间步l时,微博进入目标网 络,网络人口用户置为感染用户I。并将该用户加人 口1、』/- 0 (3)在时间步t,以3.1中所述的集成逻辑回归 与SVM的算法计算预测同时属于集合I(t一1)里的 用户的粉丝和集合s(t—1)里的用户的浏览概率Pb 与浏览行为。若未浏览,则将用户加入集合S(t);若 已浏览,计算预测用户的转发概率Pb 与转发行为。 若未转发,则将用户加入集合R(t);若已转发,则将 用户加入集合I(t)。 (4)t--t+l重复步骤(3)直到所有用户的状态不 再变化。 4仿真与分析 本文使用了数据堂提供的新浪微博相关数据, 确度,将数据集分为两部分,每部分数据包含13571 信 条微博新棍和1000条用户信 .分导I 用衢训练集和 息 传 测试集,结果如表二所示。 播 中 表二个人浏览转发行为预测与实际结果对比 的 应 实际 预测 用 转发 1l:转发 转发 70.6% 29. 非转发 l5.0% 85 0% 从表二可以看出,模型预测的准确度仍有相当 提升空间,影响准确度的因素可能有特征的选取、{』II 练集的有限性以及基于训练集的模型对未发生过的 情况无法良好预测等。 为了分析验证本文改进的s 模型在整体传 播范围的准确性,仿真了5条传播范围相对较广的 微博,预测与实际结果对比如表三所示。 微博 劂84 实际 l 42 4g 2 37 30 3 36 45 4 4o 4g 5 33 23 由表三可以看出,影响整体模型的预测准确度 的因素主要是个人浏览转发行为预测模型的准确 度。 5结束语 本文通过对现在研究不足的分析,建立了一种 基于微博网络的、考虑了用户间不同与微博问差异 15 ~ 的改进型SIR信息传播模型。实验仿真结果表明, 该模型可以较好地预测实际网络中用户的浏览转发 [6]Li Chao,LUOJun,HUANGJ,et a1.Multi-layer networkfor influencepropagationover microblog[C]. Procof PaciicAsifaConferenceonlntelligenceandSecur itylnformatics.Berlin:Springer-Verlag,2012. 行为与信息整体的扩散范围。由于特征的选取、训 练集的有限眭以及基于训练集的模型对未发生过的 情况无法良好预测等等,存在着许多会影响模型预 【7]CHAM,HADDADI H,BENEVENUTOF,et 测准确性的因素,因此该模型还有很大的改善空间。 本文有助于更深刻地信息传播模型研究,如何在动 态网络中对信息传播行为进行建模将是今后的研究 方向。 参考文献 [1]陈慧娟,郑啸,陈欣.微博网络信息传播研究 综述[J].计算机应用研究,2014,31(02):333-338. [2]LESKOVECJ,McGLOHONM,FALOUTSOS C.et a1.Cascadingbehavior inlargebloggraphspattern— sandamodel[C].Procof theSociety of Appliedandindus— trial Mathematics:DataMining,2007. [3]张彦超,刘云,张海峰,等.基于在线社交网络 的信息传播模型[J].物理学报,201 1,60(05):60—66. [4]WUMing,GUOJun,XIEJian-jun.Social medi— a communicationmodel researchbasedonSina—weibo [C].Procof the6thinternational Conference on Intelli— gent Systems and Knowledge Engineering.Berlin: Springer—Verlag,20 1 1. [5]YANGJ,LESKOVECJ.Modelinginformation- difusioninimplicit networks[C].Procoftlle10thⅢEEI ntemationalConferenceonDataMinin ̄WashingtonDC: IEEEComputerSociety,20 1 0. a1.Measuringuser influence intwitter:the million fol— lower fallacy[C].Proc of hte 4th Intemational AAAI ConferenceonWeblogsandSocial Media,20 1 0. [8]YANGZi,GUOJing—yi,CAI Ke—ke,et a1.Un— derstandingretweeting behaviorsinsocial networks[C】. Procof the l 9th ACM Intemational Conferenceon In— form ̄ionand Knowledge Management NewYork: ACMPress,2010. [9]张肠,路荣,杨青.微博客中转发行为的预测 研究[J】.中文信息学报,2012,26(o4):109.114. [10】谢玲,刘琼荪.集成Logistic与SVM的二分 类算法[J].计算机工程与应用,2011,47(29):149—151. [1 1]赵文兵.Web2.0环境下在线社交网络信息传 播仿真研究[D].南京:南京大学,2013. [12】吴凯,季新生,刘彩霞.基于行为预测的微博 网络信息传播建模[J].计算机应用研究,2013,30 (06):1809—18l2. 作者简介 杨曦(1990一),女,侗族,贵州凯里人,硕士在 读,主要研究方向:社交网络中的信息传播; 刘艳华(1965一),男,汉族,山东诸城人,博士, 助理教授,主要研究方向:移动通信、图像处理、社交 网络中的信息传播。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务