上海论文网是一家老字号代写网站,专业提供代写硕士毕业论文服务。

基于情感相似度之社会化推荐体系概述

日期:2015-01-18 15:24 作者:上海论文网 编辑:lgg 点击次数:215
销售价格:0 论文编号:el201501181524016271 论文字数:3808 所属栏目:博士论文
论文地区: 论文语种:其他 论文用途:其他

本文是博士论文,本文基于微博平台研究社会化推荐系统设计,对影响推荐性能的因素分别构建。首先在第一章中绪论中提出了研究问题的背景、目的以及研究意义,通过国内外研究文献综述。

第 1 章 绪 论


1.1 问题的提出
进入网络时代,世界范围内的互联网使用率快速增加,据 Internet WorldStats 机构截止 2012 年 6 月 30 日发布的最新数据显示[1],国际互联网的使用人数已经超到 24 亿人,占世界总人口的 34.3%,如表 1 所示。同时期相比较,我国网民数达 5.38 亿,其普及率约 40%。其中引人关注的是随着智能手机的技术发展和价格的下降,我国手机网民数达到了 3.88 亿人,这就说明中国网民接入互联网方式的方式出现新的格局[2]。移动互联网和手机终端的进一步发展,使得网民可以随时随地查看、阅读、分享以及发布信息,呈现出上网地点多样、上网时长增加的趋势。可以看出,网络技术和硬件发展,给越来越多的人群带来更多信息和知识,通过不同途径、不同方式大大方便了人们对信息获取和满足不同群体的多样化需求,因特网已经渗透到社会的各个方面,它已经成为生活的必需品。通过互联网,我们可以更快的了解到世界任何角落的信息,也彻底改变了全球各地人们的商务模式,许多财力雄厚的公司都投身其中。电子商务公司爆炸性增长,经过几十年的发展形成了这个令人兴奋的电子商务产业。根据信息和交易的交换方式不同,电子商务出现了 B2B(企业对企业)、B2C(企业对客户)、C2C(客户对客户)、B2G(企业对政府)的等多种商务需求[3]。从表面上看,关于电子商务的事情都是美好的。然而,商品个数和种类急速增多,顾客浪费大量的时间才能找到自己想要的商品。这种搜索和浏览海量信息和产品的过程,使消费者的时间和精力大量浪费。同时,也大大降低了电子购物的效率,反而成为一种新型壁垒。

……….


1.2 国内外研究综述
在 Web of Science 平台上以主题“推荐系统(recommend* system)”检索相关文献,这样既包含 recommendation system 又有 recommender system 主题。截止 2013 年 6 月能够检索到 31,285 篇文献。若是以标题搜索“recommendation system”我只可以得到 1077 篇文献。在此基础上,本文限定标题中含有“social”后进一步精炼后得到 455 篇文献。为了发现研究内容的变化创建引文报告,通过年代分布比较推荐系统研究和社会化推荐系统研究的趋势,如图 1-1 所示,(a)是推荐系统文献的引文报告;(b)是社会化推荐系统的引文报告。在一定程度上,可以看出推荐系统在 2002 年后发展较为迅速,2005 年发文量有了较大提高,近几年的发文量趋近平稳。然而,与社会化推荐系统相关的文献在 2007 年后才有小幅度增加,2009 年后每年文献发表量才有较大提高,而且在逐年提高。从中可以看出,推荐系统研究虽然经过 20 多年的发展仍然是一个比较热门、吸引众多学者方向。从文献发表量来看,社会化推荐系统的研究是最近几年才兴起的新的研究方向,2009 年后发文量才有明显的提升,这也验证了社会化推荐系统的研究是随着社交媒体出现后才被提出的,很多学者也开始将研究集中过来。
……..


第 2 章 数据集构建及其特征分析


2.1 微博及其特征
微博是目前最为流行的微型博客交流平台之一,它比博客更加灵活、直接和简洁。这直接受益于其在每次发布的内容长度上的限制,例如,Twitter 上的单次文本内容发布长度都限制在 140 个字符以内,新浪微博的单次发布文字内容长度是 140 个字。因此,简洁的文本是微博功能服务最为突出的优点。作为全球最为流行的微博,Twitter 在 2006 年开始发布的时候就只提供文本形式交流,也使得它迅速被大众接受和推广[105]。随着用户需求的增多,微博平台也增加了支持其他内容的发布,比如图片、音乐、视频、电影等等。一些研究认为,微博是一种新的交流平台和新闻扩散的媒介[106]。微博平台带来了互联网的创新,这种新的网络和信息传播形式尤其自身的属性和特点。结合其他学者对Twitter 和中国微博的研究,本文认为,微博的内容可以概括为以下六个方面:
1) 即时新闻和观点转发和扩散;
2) 特定社区交流,社区用户账号;
3) 共享公共网盘、博客、信息和 URL;
4) 日常琐事;
5) 特定话题和内容的服务,如医疗,管理学,心理学等;
6)广告宣传。
…….


2.2 基于变精度的微博数据采集方法
此文研究的新浪微博数据是复杂的网络数据,社会网络数据收集方法主要有两种:一种是滚雪球式,它是抽取一定用户数据为种子,然后逐层收集用户连接用户。对微博数据来说,就是先收集一定用户的粉丝信息,然后采用广度优先算法,收集每一层用户信息,逐层数据量加大,如滚雪球一样越来越大。这种方式会产生数据灾难,收集数据工作量巨大。另一种方式是确定边界式,对于研究的社会网络,可以选择特定范围的数据。可以对话题社区、对特定研究主题或者某一层数据进行研究。这样会使得数据收集更有针对性,研究目的更加明确,大大减少数据收集工作量。因此,本文采用确定边界的方法收集微博网络数据。首先要选定局部社区网络收集相应数据。在确定了网络边界下,需要合理选择用户种子进而扩大社会网络,并在这个网络内设计有效推荐框架。因此,如何收集针对社会化推荐的微博网络数据是研究的基础。这就需要确定网络边界,本文提出了基于可变精度的采集方法,通过不同精度的数据,最后确定最优网络边界。为了验证此方法的有效性,首先在公共数据集合上验证基于此方法的数据收集对最后推荐结果的影响。在获得好的结果后,才将此方法扩展到微博特定主题的网络数据收集上。
…….


第 3 章 社交化网络模型构建与用户连接预测........46
3.1 指数随机图模型.......46
3.2 微博网络 ERGM 模型构建.......47
3.3 基于 ERGM 模型的参数估计........ 48
3.4 基于 ERGM 模型的仿真.....50
3.5 基于 ERGM 模型的拟合度分析....51
3.6 基于 ERGM 模型的用户连接预测......54
3.7 本章小结.......57
第 4 章 社会化推荐系统中的情感相似分析......59
4.1 情感分析.......59
4.2 特定主题下微博特征提取........61
4.3 特征选择.......64
4.4 微博特征分类组合与贡献度分析........68
4.5 基于 KL 变换的情感相似度计算........69
4.6 本章小结.......72
第 5 章 社会化推荐系统模型构建与实证分析........74
5.1 社会化心理和行为分析......74
5.2 社会化影响因素分析....76
5.3 基于修正情感相似度的社会化推荐系统模型.....80
5.4 社会化推荐系统的实证研究....83
5.5 本章小结.......93


第 5 章 社会化推荐系统模型构建与实证分析


社会化媒体上的用户在网络中形成关注和粉丝关系,这种形成好友关系网络与真实现实世界形成朋友网络在机理上是不一样的。虚拟社会网络受到不同信息因素影响,社会心理分析在社会化媒体上有其特定应用场景。影响一个人做出关注、转发信息和推荐好友等行为的社会心理更加复杂,社交平台上有更多的影响因素。因此,在对用户进行推荐时,应该分析社会化影响因素。本文针对的对象是社会化推荐系统中特定领域内的用户推荐,其理论前提是对朋友或者好友的信任,只有信任度较高和关系强度较大的用户才能增加用户网络结构的延伸。并且,社会心理和行为研究中,在一个真实社会网络中会有意见领袖的存在,他们往往是一个领域的专家和可靠信息的发布者,虽然他们发布的微博内容和频次较少,但其信息重要程度和价值较高,也应该是在做社会化推荐中考虑的重要因素。因此,本文首次提出将情感相似度引入到社会化推荐系统中来,利用用户对某一话题的微博进行情感挖掘。在现有社会化推荐系统中已经考虑到网络拓展结构,微博特征基础上,再加入文本挖掘中的情感相似度,使得用户推荐结果更加准确,对特定偏好内容的用户进行针对性推荐。
………


结 论


社会化媒体平台与传统网页、论坛和博客有很大不同,以用户为中心而构成了复杂社会网络,创新文本发布方式和内容限制丰富了社会文本信息量。针对新的应用平台如何进行用户和内容的推荐,得到世界范围内广大学者的关注。有效构建社会化推荐系统架构,能够充分利用社会网络结构和文本内容的挖掘对提高社会化媒介推荐性能起着至关重要作用。为此,本文着重从这两方面研究,即如何对社会化媒介网络提取有用信息和从文本内容中提取用户的情感特征。结合以上两部分研究,本文提出了社会化推荐系统框架,并对糖尿病微博数据和婴幼儿主题微博数据进行建模实证研究。主要研究结论和创新成果如下:
(1)提出了基于可变精度的微博网络数据收集方法。本文采用微博数据确定网络边界的收集方式,采用基于变精度的方法。首先将变精度方法用在电影评价这一公共数据集上,验证了基于可变精度的方法能够选择合适的数据量,使得推荐结果达到更佳效果。在其有效性得到验证后,本文将此方法运用到微博网络数据收集上,运用基本推荐方法检验最终结果,最后得到了最优的糖尿病微博数据收集的种子数,确定了数据收集的最优网络边界。

该论文为收费论文,请扫描二维码添加客服人员购买全文。