筛选:  数据库论文摘要 论文资料库 硕士博士论文数据库 数据统计论文 本科论文数据库 硕博士论文数据库 医学论文数据统计 博硕士论文文摘库 国外学位论文 博硕士论文全文数据库

【留学生论文】试析微博社交网络数据挖掘与用户权重分析(论文范文标题)

星级: ★★★★★ 期刊: 《中国高新技术企业·中旬刊》作者:张宇航浏览量:6810 论文级别:经典本章主题:用户和数据原创论文: 5156论文网更新时间:09-24审核稿件编辑:Hyman本文版权归属:www.5156chinese.cn 分享次数:4627 评论次数: 8503

导读:本篇文章是用户和数据类的论文,提供给准备写作相关这方面论文提纲格式怎么写的应届毕业生们提供参考阅读下载。

(本溪广播电视大学,辽宁 本溪 117000)

摘要:随着互联网时代的到来,数据成为当今社会中重要的资源,在庞大的数据体系中蕴藏着无限的价值,对这些数据进行挖掘有着重要的意义.社交网络是在传统网络的基础上发展而来的,但是当网络的应用和移动的终端设备快速的发展时,社交网络也飞速发展起来.文章对新浪微博中的数据通过适当的方式进行了收集,并进行了相关的分析.

关键词:新浪微博;社交网络;用户权重;数据分析;数据体系文献标识码:

微博社交网络数据挖掘与用户权重分析
用户和数据[标签:

优质用户留学生论文写作技巧分享
播放次数:2501 评论人数:2104

论专词]

A

中图分类号:TP391文章编号:1009-2374(2016)05-0190-02DOI:10。13535/j。cnki。11-4406/n。2016。05。095

信息的获取方式有很多种,但是比较常用的主要是两种:一种是网络爬虫;另一种是网页信息解析.但是微博用这两种常规的方法很难高效地获取相关数据,因为微博的用户量很大,数据更新的速度很快,用户之间的交流很频繁,这种常规的方法无法实现这种数据的获取.所以,微博的数据获取主要依赖于API接口,它是由微博服务商提供的一种可以查询微博数据和微博中的交流情况的应用,可以实现微博数据的获取.

微博服务商不仅可以获得微博的数据,还可以获得用户的数据,这些数据都是很重要的资源,但是API作为一个服务器,同其他服务器一样,有一定的负荷限度,所以为了保证服务器不出现崩溃、为了保护数据不丢失,必须对每个API接口设置一定的权限.在新浪微博中,一般的权限是用户在一个小时内调用的次数不能太过于频繁,最多为1000次,而且在此基础上每个API中都设有各自的小权限,所以在收集数据的过程中要分别对每个API接口进行相应的设置,这样才能获得更多的数据.除了解决API接口的限制问题,还需要系统具备灾难恢复功能,这样可以相对提高数据获取速度.

1微博数据收集和特征分析

1。1微博数据收集

虽然利用开放的API接口可以收集微博中的数据,但是还有一个重要的问题需要解决,那就是关于用户的身份认证的问题.用户在微博中注册的时候进行的身份认证是受保护的,任何第三方在不知道用户名和 的情况下是不能查看该用户的任何信息的.新浪微博是通过OAUTH认证来实现用户身份保护的,QAUTH认证不仅安全,而且还特别简单实用,在新浪微博中主要是用于API的用户验证协议.当用户在微博中进行注册的时候,通过QAUTH的授权后,用户会收到一份由API根据用户的请求而发送的XML或JSON文件.可以通过对这类文件进行解析,从而获得原始的数据.

1。2微博特征分析

每个用户的受关注程度都不相同,为了评价某个用户的受关注程度,可以通过统计其微博的回复数和转发数来估计.在新浪微博中,对于用户所发送的一条微博,关注他的用户可以有三种行为:第一种是单纯的回复,在这种情况下该用户的微博中的评论数就会增加1个;第二种是单纯的转发,在这种情况下该用户的原微博中转发数就会增加1个;第三种是既有回复又有转发,在这种情况下就会评论数和转发数都加1个.所以在微博的转发回复两者之间既相互联系,又相互区别.同理,微博的回复数量和转发数量之间同样存在着某种关系,如果某一条微博的回复数量很高,那么这条微博被转发的可能性也很大.

新浪微博较其他的社交网络平台有更多的功能,其中很重要的一个就是在新浪微博中含有很多多媒体的信息.经过统计发现,在微博的内容中添加了一些图片或其他多媒体信息会比单纯的文字内容更具吸引力,会有更多的回复量和转发量.此外,对于同样具有多媒体信息的微博,如果在微博中存在提及关系,那么它的关注量会比没有提及关系的更高,而且这个关注度还随提及的用户的数量的增加而增加,所以在微博传播性能参考特征中还有提及特征.

2用户特征分析

虽然微博同Facebook、MySpace等一样都是社交网络,但是微博有很多不同于它们的特点.比如,在微博中用户之间的友好关系是双向的,当用户A关注用户B的时候,不需要经过用户B的审核,而且如果用户B不关注用户A的话,用户A就不会出现在用户B的关注名单中,在这种情况中,用户A与用户B之间的关系比较复杂,与一般的好友关系不同,前者是后者的粉丝,后者是前者的被关注好友.在微博这种社交网络中,其结构特征可以描述为一种关系式,即G=(U,E),U指网络中的节点,也就是用户,E表示各个用户之间存在的有向的连接关系.该关系式称为网络拓扑关系,在这个关系式中,分别设定了出度和入度,其中出度是指一个用户的关注好友数,入度是指这个用户的粉丝数量,通过用户的出度和入度形成了一个网络节点的度的分布特征.

在新浪微博中用户是分不同等级的,在本文进行数据收集的过程中发现,在新浪微博中通过认证用户将用户分为普通用户和认证用户.因为微博在不断的升级更新,在最新版的新浪微博中对认证用户进行了更加详细的分类.在研究过程中发现,经过认证的用户的粉丝量较普通用户多很多,而且其微博的评论量

本篇试析微博社交网络数据挖掘与用户权重分析论文范文综合参考评定如下
有关论文范文主题研究:关于用户论文提纲格式怎么写大学生适用:硕士学位毕业论文
相关参考文献下载数量:2104写作解决问题:论文提纲格式怎么写撰写
毕业论文开题报告:论文开题报告评语职称论文适用:初级职称评定,职称论文怎么写
所属大学生专业类别:用户方面论文提纲格式怎么写论文题目推荐度:最新标题
和转发量也更高,所以是否为认证用户也在很大程度上决定了微博的传播情况.一般来说,如果一个用户有很多的粉丝,那么他的微博被转发或者被评论的可能性就很高,对于用户微博的转发与回复数与用户粉丝数量之间存在着很密切的关系,但是这个关系比较模糊.

当用户打开微博的时候,最先呈现在其微博首页的是其所关注的好友的最新微博,一般都是按照时间的顺序进行排列,最新的消息排在最上面.一般来说,用户打开微博后最先出现的就是关注好友的最新微博,但是随着逐渐向下滑动,会有更多的信息呈现出来,所以每次用户在打开微博后,会有大量的信息出现,但是一般的用户都只是简单浏览,很多信息都会被忽略掉.因此,一个微博是否会被关注还会因为用户的情况不同而不同,如果一条微博的发布时间恰好处于用户的活跃时段,那么被关注的可能性就会很大,但如果恰好处于不活跃时段,则很有可能会被忽略,所以用户的活跃时间特征也是微博传播的重要影响因素.

3基于HITS算法的节点权重分析

在社交网络中特别重视人与人之间的相互关系,所以一个很具有权威的微博作者的微博会传播得更广.通过前面的分析可知,用户的权重有很多的影响因素,比如用户的影响力、用户的活跃程度等.HITS算法是一种权重排

原创出处:http://www.5156chinese.cn/jingji/524980.html

序法,在互联网中有很广泛的应用,它主要是指:在同一个网页中同时存在两个不同的值,分别是hub值与authority值.其中hub值是指该网页所指向的所有的网页中的authority值构成;而网页的authority值由指向该页面的所有网页hub值构成.在互联网中,有这样一个规律,如果有很多具有高权威性的网页都指向一个未知的网页,那么这个未知的网页在很大程度上也会是高权威性网页.

在整个互联网中,每一个网页都会含有各种不同的连接,假如在你打开的一个具有很高权威性的网页中连接到某一个广告,那么这个广告就会因此而同样具有很高的权威性;或者另外一种情况,当你在搜索一个主题的时候,出现一个与你搜索的主题没有任何关系但是具有很高权威性的页面,这些情况都会使得HITS的公正性受到严重的影响.但是,在微博中,每个用户都是独立的个体,都有自己的思想.很多明星在微博中有大量的粉丝,并且一般都只有少量的关注好友,但是他们的微博通常都会有很高的回复率和转发率.对微博中的用户进行详细的分析后,得出了一些重要的规律,比如:在新浪微博中,如果某个用户有很高的权重,他关注的好友越多,那么说明他所关注的好友越不重要;但是,反过来,如果他关注的好友越少,则说明他所关注的好友对他来说都很重要.为了限制权威性用户无限度的传递其自身的权威性,必须将HITS算法进行相应的改进,因为在微博中用户之间的友好关系是有方向的,这种关系正好与互联网的网页连接非常相似,所以可以按照互联网中的方法同样的改进,HITS算法.

在社会快速发展的同时,互联网也在迅速的发展,特别是社交网络如微博逐渐成为人们日程生活中不可或缺的一部分.社交网络比传统网络传播信息速度更快,特征也更复杂,所以传统的理论和研究模型都不再适用于社交网络,怎样才能更加快速、更加高效地获取社交网络中的各种信息和数据,具有很重要的研究意义和应用的价值.

本文将API接口的应用合理地运用到研究过程中,并结合网页信息解析法,分别对微博的数据进行了收集和多角度的分析,根据研究结果发现影响了影响微博用户的权威性和微博的传播范围的相关因素.在微博等社交网络中,虽然所发布的内容完全相同,但是具有不同权威性的人进行发布将会有不同的效果、不同的影响力.

[ 参考文献 ]

1、高校用户科技查新行为实证研究——基于东北大学十年数据之视域 关键词:大数据统计分析;查新工作调研;用户信息查询;用户信息行为实证研究 文章基于东北大学查新站十年工作数据的统计分析,以图表的形式从用户课题查新数量、查新委托单位、查新类型、查新

2、网络机器人探测技术在开放获取机构知识库用户使用数据统计中的应用*(1 兰州大学图书馆 甘肃兰州 730000)摘 要:文章通过文献分析对网络机器人探测技术的研究现状进行总结;对DSpace、EPrints、Digital Commons、 Univer

3、用户数据素养教育视角下的图书馆科学数据管理研究(内蒙古农业大学图书馆 内蒙古呼和浩特 010018)文章在概述科学数据与数据素养的基础上,对国内外图书馆界的科学数据管理研究与实践进展进行了梳理,最后从用户数据素养教育视角,分析了图书馆科学

这篇文章预览整理:对关于撰写用户和数据方面相关论文范文和课题研究的大学生硕士以及相关本科毕业论文用户论文开题报告范文和相关格式模版及论文参考文献有了一定的了解帮助。

本篇有关用户和数据毕业论文范文免费供大学生阅读参考-点击更多714948篇用户和数据相关论文开题报告格式范文模版供阅读下载
延伸阅读: 数据库论文参考文献免费期刊论文数据库财务统计论文写论文去哪里找数据外文期刊论文国外博士论文数据库免费学位论文数据库外文学位论文数据库哪里找毕业论文国外学位论文数据库
手写论文抄写格式要求 中国智能电网论文 建筑员论文 关于计调的论文 读谱论文 论文评审办法 罐头论文 外国史论文 计算机软件的论文 电子导论课论文