HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 个性化推荐

个性化推荐

时间:2023-05-30 10:25:46

个性化推荐

第1篇

关键词:个性化;个性化服务实现

中图分类号:TP312文献标识码:A文章编号:1009-3044(2010)16-4562-03

Survey on Personalized Recommendation

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221008, China)

Abstract: The personalization technology is the essential product of computer technology. It is a newly discovered technology and has not been researched for a long time. A potential technology it is. In this article, what is personalization and where has personalized recommendation been used as well as the realization of personalization recommendation have been introduced. Eventually, summary and expectation of personalization are presented.

Key words: personalization; realization of personalized recommendation

随着计算机技术的发展和互联网技术的发展,人们对互联网的需要和依赖越来越多。在这个信息爆炸的时代,互联网的诞生使得信息的传播效率得到了空前的提高。信息中不免夹杂了很多用户所不能够用到的信息,因而为了使互联网能够更加有效率的为用户提供服务,个性化服务的就应运而生了。

1 个性化服务的发展

个性化服务最初是于1995年卡耐基・梅隆大学的A Robert等人在美国人工智能协会上提出的Web2Watcher个性导航系统作为起始的,是一个开始的标志。而后1999年德国Dresden技术大学的J Tanja实现了个性化电子商务原型系统TELLIM,从此个性化服务开始向全球发展。2000年,NEC研究院D B kurt等人为搜索引擎CiteSeer增加了个性化推荐功能,我国也在此时开始了个性化的研究。到2001年,个性化的研究已经在商业领域得到了广泛的应用。

2 个性化服务的含义

个性化服务通过手机和分析用户信息来学习用户的兴趣和行为[1],能够更好地理解用户,发现用户隐藏的兴趣和群体用户的行为规律,从而制定相应的信息过滤策略,按照用户的个性化信息进行主动的推荐服务。它能为不同用户提供不同的服务,以满足各自同的需求。个性化技术的应用使得用户的需求在网页访问上得到了进一步的体现,从而节省了用户的宝贵时间;其次,个性化的研究有助于实现用户的隐性需求,可以进一步挖掘用户的需求,从而为用户提供更加完善的服务;第三,个性化有助于提高用户对网站的忠实度,由于某个网站保存了用户的相关个性化信息,从而方便用户下次访问时提供更加快捷和准确的服务,对于网站本身也是有很多益处。

3 个性化服务的研究领域

个性化服务的研究领域很广泛,搜索引擎方面个性化服务应用最为广泛。具有代表性的有Google的iGoogle服务,网络是一个巨大而且分布广泛的全球化的信息服务中心,因而网络是个性化发展的一个宽广的平台,潜力无限。

电子商务同样是值得开发和研究的行业。自从电子商务的兴起,人们对于这种便捷和快速、安全的购物方式就十分青睐。商品的琳琅满目总是使得我们很难找到自己需要的商品。然而个性化的研究则可以很好解决这个问题,它不仅解决了用户搜索自己所需商品的时间,同时个性化服务做得好的网站得到了用户的信赖,增加了网站的人气和人们的忠实度,另一个方面同时也可以进一步推销网站的相关商品。因而个性化服务已经成为电子商务发展的加速器。

在传媒行业个性化的深入也得到了体现。随着信息技术发展和应用的深入,网上的新闻采、编、发更加速了新闻的流程。而且由于网络的时效性、快速性、广泛性、廉价性和交互性,网络往往成为更多读者阅读新闻的选择。但是网络如今的信息泛滥,新闻也是多的令人目不暇接,因而个性化的引入使得读者在阅读后网站可以记录下该用户的阅读偏好,以便提供相关内容更加贴合用户的需求。比如,一个用户长期阅读军事方面的内容,而对其他的内容不是经常阅读,通过个性化算法可以在以后给用户提供更加全面和丰富、实时的军事信息,对于网站改进自己的服务和提高用户的忠诚度有着深远的影响。

在网络学习方面,学习者很难找到适合自己学习的内容,网络上又有大量有用资源没有被学习者发现,形成了巨大的浪费。个性化的研究可以提高学习效率,给用户提供更加准确的信息,增强学习效果。

4 个性化服务的实现

要实现个性化服务,学习和跟踪用户的行为和兴趣是首要任务,而后设计一种合适的表达方式。组织好资源,选取资源的特征,才能把资源推荐给用户,并保证采用合适的推荐方式。此外,系统的体系结构也是重要问题,其在服务器端、客户端和端实现的利弊也是考虑的重中之重。因为这些方面都是相互制约的。

4.1 用户描述文件

对个性化服务系统,最重要的是用户的参与,为了实现用户的兴趣与行为的跟踪,应为每个用户建立一个用户描述文件。在收集用户的信息之前,首先需分析用户愿意提供什么信息,用户一般都很注意个人信息的保密性[2],调查显示,大多数用户不愿意提供私有、敏感的信息,比如个人收入和信用卡号等。因而在进行跟踪时需要对此进行着重的考虑。

4.1.1 用户描述文件的表达

不同个性化服务系统的用户描述文件都各自有各自不同的特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型[3]。兴趣的类型是向用户提出对其兴趣的需求。这种做法比较尊重用户自己的隐私权,用户可以将自己平时的喜好来显示的告诉Web站点,从而得到自己需要个性化服务的部分,简单、快捷、交互性好。而对于行为的方式,在用户第一次使用个性化服务系统的时候,系统可以要求用户对自己的基本信息和感兴趣的内容进行描述,也可以第一次显示地进行交互。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。 以便该服务系统可以向用户提供更精准的个性化需求。

4.1.2 用户描述文件的更新

用户描述文件的更新用户描述文件不可能是一成不变的,用户的需求是时刻都在改变的。根据用户的需求改变,用户描述文件应该进行相应的更新,从而满足用户进一步的需求,进而提升服务的精确度和交互性,进而赢得服务在用户心中的地位。因而对于用户描述文件的更新而言,又分为显示更新和隐式更新。显示更新是提供单独的服务模块,让用户可以自行进行需求的更变,其实现简单方便,与用户的交互性好,缺点是更新的范围受限。而隐式更新则要体现在用户操作上的习惯方面。用户的很多都可以反映用户的喜好。用户行为可以表现为查询、浏览页面、标记书签、信息反馈、鼠标点击、操作滚动条、前进、后退等,这些信息则可以用于个性化服务系统对描述文件进行创建和更新。Web日志挖掘中根据网页的点击次数来评价用户对该网页的兴趣是最常使用的方法,同样也可以根据用户在网页停留的时间来进行判断,当然这些都是不全面的。个性化服务系统应用的领域决定了它所处理的资源。目前,个性化服务系统所处理的资源仅仅限于文本范畴。资源的描述与用户的描述紧密相连,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。基于内容的方法是从资源本身抽取信息来表示资源,使用最广泛的方法是用加权关键词矢量;基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类感兴趣的用户。文本分类方法有多种,如朴素贝叶斯、K2最近邻方法和支持向量机等[4]。资源描述文件主要是为采用基于内容的过滤作准备的,因为该技术是通过比较资源与用户特征来推荐资源。

4.2 资源描述文件

个性化服务系统应用的领域决定了它所处理的资源。目前,个性化服务系统所处理的资源仅仅限于文本范畴。资源的描述与用户的描述紧密相连,一般的做法是用同样的机制来表达用户和资源,资源描述文件可以用基于内容的方法和基于分类的方法来表示。基于内容的方法是从资源本身抽取信息来表示资源,使用最广泛的方法是用加权关键词矢量;基于分类的方法是利用类别来表示资源,对文档资源进行分类有利于将文档推荐给对该类感兴趣的用户。文本分类方法有多种,如朴素贝叶斯、K2最近邻方法和支持向量机等[4]。资源描述文件主要是为采用基于内容的过滤作准备的,因为该技术是通过比较资源与用户特征来推荐资源。

5 个性化推荐

用户得到的个性化服务应该是Web提供给用户的各种个性化推荐得以实现。因而如何实现用户的个性化需求则成了个性化的一个关键点问题。根据已经建立的资源描述文件和更新的资源描述文件,可以得知用户的个性化需求方向,但是具体实现对用户的服务还是应该靠个性化推荐。个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过滤技术。

5.1 基于规则的技术

基于规则的技术中的规则可以由用户自己来定或利用基于关联规则的挖掘技术定,通过已生成的规则向用户实现推荐服务。一个规则本质上是一个If-Then语句,规则可以利用用户静态属性或用户动态信息来建立。其优点是简单、快捷。但是利用规则来推荐信息与规则的质量和数量密切相关,其缺点是随着规则的数量增多,系统将变得越来越难以管理。典型基于规则的系统有IBM的WebSphere、BroadVi2sion[5]。

5.2 基于内容的技术

基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源。相似度计算是其重点考虑的问题。绝大多数时候用户不能够将自己所需要得到的消息进行精确表达,这也是基于规则的技术中的缺点。因为人类语言的千变万化使得Web能够提供给我们的规则是有限的。因而使用基于内容的技术可以是通过与用户定义的资源描述文件进行对比,并且对其相似词的资源进行搜索,得到用户可能感兴趣并且没有看过的内容进行推荐。这大大增加了推荐的范围,也增加了用户可以精确定位自己所需要的内容的可能性。但同时也有可能为用户带来更多所不需要的信息。典型的系统有Personal WebWatcher[6] 、WebMate[7]、WebACE[8]等。

5.3 协作过滤技术

协作过滤是根据用户的相似性来推荐资源。它与基于内容的过滤技术不同的地方是它是通过比较用户描述文件而非资源与用户描述文件来进行判断的。基于近邻用户的协作过滤技术应用比较普遍,它只依赖于用户对项目的评分矩阵,因此对于各种特定应用都有较好的适应性,通常把各个评分值当做一个向量,计算其相似度,找出最相似的邻居,根据与之最相似邻居的兴趣或偏好预测出该用户的兴趣或偏好。代表系统有GroupLens[9]、SiteSeer[10]等。该方法在实践过程中遇到两个很难解决的问题:稀疏性问题和可扩展性问题。稀疏性问题也就是指在系统使用初期,由于系统资源的评价还不够多,因而该方法很难利用这些评价来发现相似的用户。可以利用LSI(latent semantic indexing)[11]方法来降低维空间,增加数据的密度,从而更容易发现用户间的相似性。可扩展性问题也就是指随着系统用户和资源的增多,该方法性能会越来越低。人们提出了基于规则[12]、聚类方法、贝叶斯网等,在文献[13]中提到了两种改进的用户最近邻选择方法,当用户数量较大时,可以比较快速、准确地找到目标用户的最近邻居,在一定程度上可以改善扩展性问题。

6 结束语

个性化服务是当前的主流网络推荐技术,在各个领域中都在发挥着巨大的作用,服务着人们的工作、学习、生活,但是个性化的算法确实千差万别,各个算法都有自己的侧重点和优势,但是却没有一个近乎完美的算法,即每个算法都有自己不可避免的缺陷。如何将这些不足之处予以避免,如何将某些算法的优势予以整合,将是今后对个性化算法优化的一个方向。

随着个性化服务的发展,个性化也终将服务于更多的行业,对于我们的生活、学习和工作都有着不可轻视的意义。个性化目前存在的发展空间主要有用户兴趣和行为表示趋于准确化、系统的处理能力和可扩展性以及安全性问题,因而在个性化发展的同时,应用方也应该参与个性化的优化工作中来,与研究个性化的研究人员共同交互,从而发现不足,予以提高,共同进步。

参考文献:

[1] 曾春,刑春晓,周立柱.个性化服务技术综述[J].软件学报,2002,13(10):1952-1961.

[2] Volokh E.Personalization and privacy[J].Communications of the ACM, 2000,43(8):84-88.

[3] Wu YH,Chen Y C,Chen ALP.Enabling personalized recommendation on the web based on user interests and behaviors[C]//Klas W,ed.Proceedings of the 11th International Workshop on Research Issues in Data Engineering.Los Alamitos,CA:IEEE CS Press,2001:17-24.

[4] 李春,朱珍民,叶剑,周佳颖.个性化服务研究综述[J].计算机应用研究,2009,26(11):4001-4005.

[5] 阳晓萍,汤兵勇,宋月婵.个性化服务综述[J].科技情报开发与经济,2006,16(24):247-248.

[6] MLADEN IC D.Machine learning for better Web browsing,SS200201[R].Menlo Park,CA:AAA I Press,2000.

[7] CHEN Li2ren,SYCARA K.Web mate:a personal agent for browsing and searching[C]//Proc of the 2nd International Conference on Autonomous Agents.New York:ACM Press,1998:131-139.

[8] HAN E H,BOLEY D,GIN IM,et al.WebACE:a Web agent for document categorization and exploration[C]//Proc of the 2nd Inter2 national Conference on Autonomous Agents.New York:ACM Press,1998:408-415.

[9] KONSTAN J,MILLER B,MALTZ D,et al.GroupLens:applying collaborative filtering to usenet news[J].Communications o f the ACM,1997,40(3):77-87.

[10] RUCKER J,POLANCO M,SISTESSER J.Personalized navigation for Web[J].Communications of the ACM,1997,40(3):73-75.

[11] Sarwar BM,Karypis G,Konstan JA,et al.Application of dimensionality reduction in recommender system――a case study[C]//Jhingran A,Mason JM,Tygar D,eds.Proceedings of the ACM WebKDD Workshop on Web Mining for E-Commerce.New York:ACM Press,2000.

第2篇

关键词:IPTV;相似度计算;个性化推荐

中图分类号:G20 文献标识码:A 文章编号:1672-8122(2017)06-0122-02

一、引 言

IPTV(Internet Protocol Television)全名网络协议电视,是集互联网技术、多媒体技术和通讯等多种技术于一体,使用“互联网机顶盒+普通电视机或计算机作为用户终端”,为用户提供节目直播、视频点播、手机互动、3D游戏、教育娱乐等多种交互式服务的网络电视。IPTV的节目通过广播,组播,单播等方式,实现了比传统电视更人性化的服务,如:互动电视、预约节目、实时的快进及计费等管理方面的功能。除此之外,IPTV还能开展和互联网相关的其它业务,如电子邮件、电子理财和网络游戏等。IPTV的发展使传统的电视用户在选择自己喜欢的节目方面有个更大的自由空间,但是,传统的电视用户,在这些海量资源中如何快速找到自己喜欢的资源,如何快速定位到自己喜欢的节目变成了一个难题,因此设计具有个性化智能推送的系统也迫在眉睫。

二、个性化推荐技术研究现状

个性化推荐就是建立用户兴趣模型,计算用户对信息的感兴趣程度,研究适合用户的个性化内容推送技术,实现将用户喜欢的内容准确的推送给用户。1995年个性化服务技术的概念被正式提出,标志性事件是在美国宾夕法尼亚州的卡内基梅隆大学,由 Robert Armstrong等人提出的一个名为Web Watcher 的系统。我国开始个性化服务研究的标志性事件是路海明提出的基于多Agent混合智能个性化推荐系统[1]。随着互联网技术的发展,网民数量日益增多,《中国互联网络发展状况统计报告》中指出,截至2016年12月,我国网民数量已达7.31亿,很多领域的网民数量还出现了爆发式的增长,在这种态势下个性化推荐的研究也一定是热点。常见的推荐有购物类网站提供的商品推荐,行业类网站提供的信息推荐,视频类网站提供的视频推荐,门户类网站提供的消息推荐等。个性化推荐带来的便利使越来越多的用户加入其中,也促使越碓蕉嗟难д吆图际跞嗽辈斡氲礁鲂曰服务系统的研究之中。因此在IPTV发展过程中,个性化推荐技术的研究具有重要的意义。

1.基于用户特性和资源特征的内容推荐

基于内容的推荐技术是信息检索领域的研究内容,该方法来源于信息获取领域,该推荐方法要为每个需要推荐的资源建立该资源的属性档案,再为每个用户构建一个用户的喜好档案,计算用户的喜好档案与资源属性档案的相似度,相似度高说明用户喜欢该资源,否则表示不喜欢该资源,根据喜好与否进行推荐。该方法要在需要推荐的资源中进行特征提取,利用加权的方法使那些显著特征具有较高的权重,参考用户的评价修改权重,并将资源的特征向量按比例加入到用户特征向量中。计算推荐的依据可以利用余弦相似度的公式来计算,余弦相似度的计算方法为:

其中:US表示用户对某资源S的喜好值,IS表示资源I中包含S的值。

基于内容推荐只利用用户特征和资源特征,因此适用于易于提取特征的文本内容的推荐。该推荐根据资源的特征匹配,而且由于是基于用户以前的兴趣,并不能为用户找到新的兴趣,所以对于新用户,没有办法根据以往的历史数据发现兴趣,因此无法得到准确推荐[2]。基于内容的推荐,如果想达到好的推荐效果只有等用户有一定的记录量后才有可能实现。基于内容的推荐系统有:ifWeb、SIFTER、WebPersonalizer、ELFI和WebACE等,这些系统的出现使基于内容的推荐研究得到了充分的实现。

2.基于用户和项目的协同过滤推荐

协同过滤技术是目前研究比较成功也是应用较多的一种推荐技术。协同过滤技术可分为两类:一类是基于用户(User-Based)的协同过滤,一类是基于项目(Item-Based)的协同过滤。

基于用户的协同过滤基本原理是:基于用户对物品的喜好找到相邻邻居,将相邻邻居喜欢的物品推荐给当前用户[3]。例如,在一个个性化推荐系统中,向用户推荐时,通过计算找到与该用户有相似兴趣的其他用户,根据邻居的相似度权重,以及他们对物品的偏好,为当前用户生成一个排序的推荐列表,这种方法为基于用户的协同过滤算法。基于用户的协同过滤算法主要包括两个步骤:

(1)找到和推荐用户相似的用户集合。

(2)在这个集合中找到用户喜欢的,且推荐用户没有的物品进行推荐。

基于项目的协同过滤和基于用户的协同过滤原理相类似,不同的是在计算邻居时不是从用户的角度,而是从项目(或称为物品)角度,即通过分析项目之间的相似性进行推荐。该推荐算法采用统计技术,找到与目标项目有相似评分的邻居项目,选择预测评分高的前若干项推荐给目标用户 [4]。比如:对于物品甲,根据所有用户的历史记录分析发现喜欢物品甲的用户都喜欢物品乙,可以得出物品甲和物品乙有很高的相似度,所以当向喜欢物品甲的用户进行推荐时,可以推断该用户可能喜欢乙,并进行推荐。

基于协同过滤的推荐从应用的角度看是现今比较成功的推荐技术之一,很多网站都采用了这种方法进行推荐,如亚马逊、当当网等。基于内容的推荐只分析资源文本内容,而基于协同过滤的推荐加入了用户对项目的评分,因此不仅能推荐除文本之外的其他资源,还避免了对资源内容表达和推荐不准确等问题,同时由于协同过滤算法是利用最近邻居进行推荐,因此有助于发现用户潜在的兴趣,这也是协同过滤技术应用较多的原因。

3.基于联合技术的混合推荐

在推荐系统中,为了提高推荐精度经常把不同的推荐算法联合起来,这种联合技术称为混合推荐。目前,最常用的混合推荐就是把基于内容的推荐和协同过滤推荐联合起来。联合的方法主要有加权、转换、融合、特征联合、级联、特征增加、分层。混合推荐具有更好的准确率,常见的混合推荐技术是在协同过滤的推荐系统中加入基于内容的推荐算法。对于混合推荐的研究目前比较有代表性的有:Velasquez 等提出的基于知识的 Web 推荐系统;Aciar 等实现的是基于知识和协同过滤的混合推荐系统;Wang 等提出的基于虚拟研究群体的知识推荐系统[5]。

三种推荐技术各有特点也有其不足之处,其中基于内容的推荐技术需要较高的文本分类技术,而且只能实现相似内容的推荐。各网站应用较多的基于协同过滤技术虽然有很多优点,但是在刚开始使用时,想通过计算找到与目标用户的相似用户比较困难,可扩展性也差。混合推荐技术是将上述两种技术进行组合而产生的混合推送策略,能结合实际情况选择恰当的混合策略,进而提高推送质量。

4.其它的推荐技术

除了上述所说的三种推荐技术外,还有很多其它的推荐技术。一是通过用户行为的关联模式进行推荐的基于关联规则分析的方法。如:Agrawal 等通过对用户与物品间关联规则的分析提出的 Apriori 推荐算法;二是基于社会网络分析的方法。如:Wand 等对在线拍卖系统中的拍卖者进行推荐时就利用了社会网络分析方法;三是基于上下文知识的方法。如:郭磊等提出的结合推荐对象间关联关系进行推荐的算法就是利用推荐对象间的关联关系实现的。

三、用户兴趣模型的创建

要创建用户的兴趣模型,需要计算用户的兴趣度。为了计算用户兴趣度,通常要把用户的兴趣划分为多个具体的兴趣特征,先计算这些具体的兴趣特征的兴趣度,再用兴趣特征的兴趣度来计算和表示用户的兴趣度。目前,用户兴趣度大部分是采用二维向量表示的,随着时间的变化,人的主观认识会发生变化,d趣会发生变化,对某件事的兴趣度也会发生变化,但是用户兴趣的二维向量是不变的,因此不能动态的反映用户兴趣和对某件事兴趣度的实时变化。所以我们可以在表示用户兴趣时加上时间因素,也就是给兴趣打上时间的标签,这样可以更好地区分用户兴趣的变迁,重新构建新的用户兴趣模型。

1.用户行为数据的采集及建模

个性化用户模型的表示通常根据项目实际要求来选取特定的表示方法,既要考虑模型是否反映用户的真实信息,还要考虑系统本身的实际计算能力。目前,常用的表示方法有:基于矢量空间模型表示法、基于概率模型表示法(分类模型的训练可以采用朴素贝叶斯方式)、基于本体论的表示法、基于粗细兴趣度表示法、基于用户-项目矩阵表示法。计算的目的是让系统自动地分析获取用户感兴趣的敏感词,然后自动进行个性化模型创建。

2.用户兴趣模型的建立

要创建用户兴趣模型,首先要做的是用什么方法来表示用户兴趣模型,然后是用户兴趣模型在何时要如何更新。具体实现的方法是对兴趣特征进行多维度、细粒度划分,采用数据挖掘技术、人工智能等知识建立用户的兴趣模型,之后对各粒度进行定量分析,在兴趣模型的基础上加上时间因素,建立基于时间的向量兴趣模型。同时在模型构建时系统还会对数据进行解释、推理并分离出噪声,只留下关于用户兴趣的有用知识,系统通过对这些有用的知识进行格式化形成最终的用户模型。

四、结 语

个性化推荐技术的研究可以实现在不需要用户主动提供关键词的情况下,系统就能够自动建立用户感兴趣的信息库,通过计算向用户推荐感兴趣的信息,这是传统搜索引擎无法比拟的,个性化推荐技术研究既有重大的社会价值,也能带来一定的经济效益,同时也能解决现代信息科学中的很多问题。

参考文献:

[1] 易伟.基于用户行为的个性化内容推送系统研究[D].华中科技大学,2013.

[2] 庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008(16).

[3] 肖杰.面向网络电视的推荐系统框架及算法研究[D].华东师范大学,2012.

第3篇

一、引言

在虚拟的电子商务世界里,大量的商家把商品放在虚拟的网络空间,存在海量的商品信息在互联网上,对于普通消费者很难准确的找到对某个商家提高的商品非常感兴趣。用户也不可能花很多时间在浩瀚的网络资源世界里随意的去寻找自己所需,对于商品的信息用户也不可能像在现实生活的商场里一样进行实物比对。用户也无法知道商品的真正质量和品质。所以绝大多数的用户希望电子商务网站能够自动的为用户进行推荐,帮助用户在网上进行商品的挑选和购买,同时也希望网站提供其他购买商品的用户的一些评价信息,以便用户更好的了解商品的质量,根据相似或用户兴趣相同的用户进行推荐,满足用户在第一时间为用户推荐有效商品信息的需求。由于这一需求的用户量越来越多,电子商务个性化推荐系统也由此而生。

二、电子商务个性化推荐系统

所谓电子商务个性化推荐技术,即通过电子商务网站给前来访问的用户,提供一个人性化、个性化、方便、快捷的信息推荐,更加符合用户的兴趣偏好,推荐的形式多样,商品比对多样的个性化产品信息,以便用户采购商品。

电子商务个性化推荐系统一般来说,可以按主要的功能模块进行划分,通常包括用户输入模块和用户输出功能模块。输入可以是用户在登录该网站的个人信息注册,也可以是多个用户的注册信息的综合。客户个人输入主要是指目标用户,也就是说,要求建议,建议必须评估项目,将他们自身的爱好、隐式浏览和显示扫描输入、关键词以及项目属性及用户购买记录等充分表达出来。社区输入主要包含了项目属性、协会购买记录、评价内容等,是一种集体形式的评估数据。主要表达形式为建议,包括排序建议列表及建议列表排序两种,排序建议列表通常是参考用户的爱好为客户推荐具有吸引力的产品;预测系统的总体评估得分针对于一个给定的项目,个人得分,输出其他客户对商品的个别评级;对于商品的评级可以得出用户对该商品的兴趣度,文本输出也就是用户选购商品后的一组信息填写,一般会采用多种推荐算法的组合,亦或者计算机技术对数据收集整合的方式进行推荐,这个在推荐系统中占据着关键位置,直接影响着推荐系统的质量以及商品信息推荐的有效性。

电子商务推荐系统中拥有海量数据的信息资源,不同的网站可以在用户访问该网站时,通过cookie收集到各种用户的信息,并且根据用户在网站上选购商品的停留时间,可以判断用户的兴趣喜好,记录用户的信息并为用户提供有效的信息推荐。电子商务个性化推荐系统还可以不断的更新发现用户的新兴趣,根据用户注册时候所填写的资料,自动跟踪用户的购买行为习惯,及时发现用户兴趣的变化。当系统的产品库和用户兴趣的信息变化,自动推荐的序列变化,极大地促进了用户浏览商品信息,并提高服务水平。

三、电子商务个性化推荐系统结构及检索过程

电子商务个性化推荐系统的形成起源于每个人的兴趣爱好不是独立的个体,而是属于某种或某个群体。人们在日常生活中所获取的信息多数都是通过他人的引荐得到的。所以按照类似兴趣或完全相同的用户爱好进行相对的信息评价与了解,再向周围人群推荐。根据电子商务个性化推荐系统的结构如图1所示,首先通过用户对信息的评价与了解状况,将用户划分为不同的类别,如:兴趣相同或类似的用户为一类;用户推荐制度主要是通过对类别内外因素的综合影响进行考虑,按照不同的影响程度将信息推荐给相应的用户;通过用户的评价和了解,对用户类别进行相应的调整,对各类参数做出相应的修改,从而将过滤效率不断完善。信息过滤推荐主要是参照用户相互推荐的情况进行,通过对相同或类似用户的正确判断,保证信息推荐的相关性,从而避免无效信息的干扰。

图1 推荐系统整体结构

信息过滤系统的性能,关键在于过滤模型的完善程度如何。个性化推荐信息系统的过滤工作主要包含了以下几方面:第一,用户的评注和分类机制;第二,用户的推荐机制,结合类别的内外评注信息向用户进行推荐;第三,反馈机制,对用户类别和参数进行不断调整。根据对合作模式的文本过滤中,过滤的结果会根据用户的评注进行判定。而用户评注主要是通过评分的方式决断,根据用户的爱好以及评分标准,为浏览的信息评定相应的分数,评分采用百分制。用户判断分数多少一般都是通过其他用户相同或类似爱好的用户推荐进行的,这样的合作不仅可以避免无效信息的干扰,还能够有效提升过滤系统的精准度。任何用户在合作的状态下都会受类内和类外因素的影响,所以用户可以通过对其他用户的评注信息判断用户爱好和信息之间的关联程度。由于合作模式的文本过滤模式主要是通过用户相互间的推荐形成的,并非是由信息内容形成,所以,在很大程度上减少了系统对信息进行分析时的困难度和成本浪费现象。这种方式不只在文本信息过滤方面受到应用,同样也可以运用到信息推广和推荐方面。推荐系统应注意与用户分类和推荐有关的规章制度,将用户合理的组织在一起,通过对用户爱好的了解进行分类划分,明确制定合理的推荐方式,从而更好的保证信息过滤推荐的有效率。

对文档是不是满足用户的需求进行判断时,可以利用新文档的向量以及对文档的相似率进行过滤来做出决断。

对电子商务个性化推荐系统全面运用时,必须充分结合人们通过过滤过程中的心理和行为状况,过滤机制应充分按照人类的心理和行为活动设置,那就需要先成立知识库,通过对用户过滤主题的了解成立相应的知识库,知识库主要包含了主题文本的主要特点,如:关键词、相关概括以及特殊语句等。然后利用知识库中的特殊语句、相关概括或者关键词对文本中的词汇进行统计和权值运算,完成首次过滤。同时要对相关主题的语句进行深入分析,明确文本中的关键词语所在。最后通过文本信息主题中关键词语和用户给出的过滤主题对比,确定用户的要求得到全面的满足后,做出最后的决断。

四、总结

电子商务个性化推荐系统与传统的网站销售系统,他们既有不同也有相似的地方,他们都为各自的供应链管理提供了企业的决策支持信息数据。传统的销售系统只是单纯的帮助销售人员进行商品销售,然后如何将产品有效地推荐给有需求的用户,电子商务个性化推荐系统就可以很好的解决,帮助用户决定购买什么样子的商品。供应链决策支持系统是帮助生产商生产产品时,某些产品和多少应该存储仓库,最终目标是生产者为企业服务。一般个性化推荐系统主要是针对来访的,有采购需求的用户进行有效商品信息推荐。

第4篇

【关键词】个性化图书推荐 协同过滤算法 邻居选择

面对巨大的网络数据库,个性化推荐可以及时的追踪用户需求而针对性的优化信息服务的内容与手段,其能帮用户有效处理过载的信息。如今推荐系统已发展成能够产生个性化推荐亦或是引导用户通过个性化的形式到很大的空间中去选择自己的目标商品。本文为研究基于个性化图书推荐的协同过滤算法,通过模拟实验分析多标准推荐系统若干设计方案的有效性。

1 多标准协同过滤

所谓推荐系统就是帮客户找到其感兴趣或符合其需求的信息的手段,它主要是两个方面,一是预测某特定用户是不是喜欢某一特定项目,二是识别某个用户所感兴趣的项目。推荐问题可以作下述定义:c是全部用户的集合,s是所推荐的全部可能的项目,uc(s)是一功效函数uc(s):c×sR+,用来评价将项目s推荐给用户c是否适宜。假设该函数对整个c×s空间未知,仅在其部分子集中已知,需各用户c∈C可以预测S中项目s的功效函数uc(s),在S中,uc(s)未知,也就是∨c∈C,s=maxuc(s)。在大部分推荐系统内,函数uc(s)一般都只考虑项目的某一属性。

协同推荐是在某一用户被推荐以往与其有同样兴趣爱好的人感兴趣的项目,而协同过滤是基于有类似爱好的其他人的推荐去预测客户对新项目的兴趣。单属性协同过滤把问题空间定义成“用户-项目矩阵-评分矩阵”。而协同过滤的目标即为基于以往其他用户对此项目的评价,针对某一特定用户,预测其功效。

2 SVD因式分解以实现协同过滤

在设计实现推荐系统,选择推荐算法时,大多考虑协同过滤的使用,但是CF中经常使用的两种方法包括:neighbor-based方法和因式分解。作为一个搜索推荐系统,百度关键词系统中也使用了CF为用户推荐流量,考虑到可解释性。但因式分解会从全局考虑用户投票的影响,所以理论和实践上效果都会更好。

2.1 根据优先权的相似性算法

该算法与活动用户的属性wai(i=1,…,n)相比较看有类似的优先权。即推荐基于用户的意见,当选择某一项目时,分配类似的权重给每一评估标准。相似性计算就是测量用户a和用户c之间的属性矢量距离。相似性计算有以下2种。

(1)欧氏距离计算:

(2)余弦相似性:

邻居的形成通过2种手段,即相关权重阈值以及最大邻居数。为准确预测,并结合评分有3种办法。

(1)简单数学均值:

(2)加权平均值:

(3)均值离差:

2.2 SVD在推荐系统中的应用与实现

其中n表示用户数目,m表示物品数目,I[i][j]是用来表示用户i有没有对物品j评过分,因为我们只需要评过分的那些越接近越好,没评过的就不需要考虑,Vij表示训练数据中给出的评分,也就是实际评分,p(Ui,Mj)表示我们对用户i对物品j的评分的预测,结果根据两向量点乘得到,两面的两项主要是榱朔乐构拟合,之所以都加了系数1/2是为了等会求导方便。

具体公式为:

3 实验设计分析

针对此实验,考虑具有一定相似性计算的3个方案,即欧氏距离、余弦相似性以及皮尔逊相关。尚未考虑部分特定的方法针对特性加权,将该因素设置成1,邻居的形成应用到2个方法,也就是相关加权阈值以及最大近邻,最终结合评分设计3个方案。文章的目的是建设数字图书馆,宗旨是帮助用户寻找其所感兴趣的图书。用户经过注册后能够登录该系统,登录后需应用有关的评价标准。模拟系统用于形成一组200用户,200项目以及750评价的集合,这当中600评价用作该算法的训练集,其余150评价用作测试集。以上评价在模拟里进行处理时,会以80%20%的比例分配至训练集以及测试集中。对实验的分析时,应用2个性能评价办法。第一是准确度,第二是覆盖率,与其他算法对比,本文的算法在MAE指标上比以前的算法提高9.8%,时间复杂度降低19.7%,有效提高了图书推荐的准确率。

4 结语

文章用一组合成的数据集合,指出对个性化图书推进这个特定的应用,以及2种协同过滤算法的设计实验方案。此合成数据集合的多标准评估用某一合适的模拟产生,基于如此的数据集合的实验测试仅可用于初始评估,一旦能够得到真实用户的评估,就要重复进行实验。接下来的研究应是探索具有适应性的推荐系统,如此系统会动态的选择适宜的推荐算法抑或是按照评估数据集合的特性变化。

参考文献

[1]张迎峰.面向数字图书馆的个性化推荐算法研究[D].合肥:中国科学技术大学,2011.

[2]安德智,刘光明,章恒.基于协同过滤的图书推荐模型[J].图书情报工作,2011,55(1):35-38.

[3]张海荣,朱信忠,赵建民,等.一种优化的基于用户聚类的过滤推荐策略[J].计算机系统应用,2008(11):95-97.

[4]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004.10,10(10):1306-1313.

[5]曾艳,麦永浩.基于内容预测和项目评分的协同过滤推荐[J].计算机应用,2004.1,24(01):111-113.

[6]张怡文,岳丽华,张义飞. 基于共同用户和相似标签的好友推荐方法[J].计算机应用,2013,33(08):2273-2275.

[7]杨涛,曹树金.图书馆用户的个性化服务需求实证研究[J].大学图书馆学报,2011(02):76-85.

[8]许文青,林双平.融合热门度因子基于标签的个性化图书推荐算法[J].图书情报研究,2015(03):82-86.

第5篇

关键词:二部图;加权二部图;个性化推荐

中图分类号: TP181;TP301.6文献标志码:A

Personalized recommendation algorithm based on weighted bipartite network

英文作者名ZHANG Xin-meng*, JIANG Sheng-yi

英文地址(Cisco School of Informatics, Guangdong University of Foreign Studies, Guangzhou Guangdong 510006,China)

Abstract: In Network-Based Inference (NBI) algorithm, the weight of edge between user and item is ignored; therefore, the items with high rating have not got the priority to be recommended. In order to solve the problem, a Weigted Network-Based Inference (WNBI) algorithm was proposed. The edge between user and item was weighted with items rating by proposed algorithm, the resources were allocated according to the ratio of the edges weight to total edges weight of the node, so that high rating items could be recommended with priority. The experimental results on data set MovieLens demonstrate that the number of hit high rating items by WNBI increases obviously in contrast with NBI, especially when the length of recommendation list is shorter than 20, the numbers of hit items and hit high rating items both increase.

Key words: bipartite network; weighted bipartite network; personalized recommendation

0引言

个性化推荐研究于20世纪90年代被作为一个独立的概念提出来,其目的是根据用户的喜好为用户推荐感兴趣的商品或信息,推荐算法的关键是如何提高推荐精度和效率,对此研究者提出了多种改进策略和算法。目前,个性化推荐方法主要有基于规则的推荐、协同过滤推荐、基于内容的推荐、混合推荐系统以及基于网络的推荐等。

基于内容推荐算法[1-2]根据用户喜爱的项目信息,找出相似度最高的项目推荐给用户。基于内容的推荐系统分别对用户和项目建立配置文件,分析已经购买(或浏览)过的项目,建立或更新用户的配置文件系统,比较用户与项目配置文件的相似度,并直接向用户推荐与其配置文件最相似的项目。基于内容推荐只考虑用户的兴趣偏好,推荐结果直观容易理解,但是对于机器难以理解的数据格式,如音乐、图像等往往无法处理,不能为用户发现新的兴趣点。

协同过滤(Collaborative Filtering, CF)推荐[3-4]针对基于内容推荐的不足,利用用户已有的信息计算用户之间的相似性,通过邻居用户对项目的评价来预测目标用户对项目的偏好程度。CF算法不受数据格式影响,能够推荐如图片、音乐等难以处理的复杂数据,能挖掘用户新的兴趣点,但也同时存在多个问题,最典型是冷问题和稀疏问题。

基于内容推荐与协同过滤推荐均有各自的局限性,在实际应用中,通常将多种推荐方法组合起来,最常见的是将基于内容过滤推荐和协同过滤推荐进行组合,混合推荐在实际应用中比单独某一种推荐方式具有更高的准确率[5],但混合推荐必然增加时间和空间的开销。

基于关联规则推荐[6-7]关注用户行为的关联模式,通过用户行为建立项目之间的关联关系,通过这种关联关系向用户推荐其他项目。该方法不需要领域知识能够发现新兴趣点,但规则抽取困难,时间复杂度高,个性化程度较低。

基于网络结构的推荐算法[8]不考虑用户和项目的内容特征,而仅仅把它们看成抽象的节点,所有算法利用的信息都藏在用户和项目的选择关系之中,Wand等[9]利用社会网络分析方法推荐在线拍卖系统中可信赖的拍卖者。

Zhou等[10]提出网络推断(Network-Based Inference, NBI)算法,利用二部图进行资源分配,取得了比CF算法更好的效果。本文引入二部图边权提出加权网络推断(Weigted Network-Based Inference, WNBI)算法,以项目的评分值作为二部图的边权,按边权比例计算资源分配矩阵,在没有增加时间和空间开销的情况下,提高了推荐精度。

1二部图与推荐算法

近年来,复杂网络得到广泛关注[11],越来越多关于网络的研究成果被发掘并应用,为人们深刻认识现实中的复杂系统并对之进行控制或应用提供了有效帮助。二部图是一种特殊的网络,它包含两类节点,仅允许不同类的节点间相连,许多自然界系统可被描述为二部图[12]:如性别关系二部图[13-14]、新陈代谢网化学物质与化学反应二部图[15]。

二部图包含两类节点:一类节点是活动、项目的“用户”,例如科研人员、演员等;另一类节点是活动、项目,例如科研项目、论文、电影等。二部图中同一类节点之间的合作相互关系是研究领域的一个热点,比如演员之间在演出的合作关系、科研人员之间的写作论文的合作关系等。

第3期 张新猛等:基于加权二部图的个性化推荐算法计算机应用 第32卷1.1基于二部图的推荐算法

文献[10]提出一种基于二部图的推荐算法,将二部图向同一类节点投影,得到单模式图的新方法,讨论在项目节点类中节点之间的边权计算。假设每个项目均有一定的资源,定义边权wi j表示项目j通过二部图边分配给项目i的资源,通常wi j和wji是不相等的。比如在一个“观众电影”的二部图中,有两部电影i和j,如果一个观众已经观看了电影j,那么两部电影之间的边权wi j表示电影j推荐电影i的强度。在“用户”与“项目”节点之间的边认为是无权的,在资源分配过程中,每个项目将自己所有的资源通过二部图的边平均分配给该项目的每个用户;反过来,每个用户又将自己所有分到的资源再次通过二部图的边平均分配给所参与的项目。图1为项目通过二部图的边进行资源分配的过程。

图片图1基于二部图的资源分配过程

在图1(a)中,3个项目节点具有资源权重分别为x、y、z。资源分配过程分两步:第一步是从项目到用户,将项目的资源平均分配给每个用户,分配结果见图1(b);第二步是从用户返回到项目,用户将所分得资源平均分配给所参与的项目,结果见图1(c)。

考虑一个由n个项目m个用户所构成的二部图(例如用户图书,观众电影,浏览者网页等),二部图表示为G(X,Y,E),E表示二部图的边,即连接用户和项目的边,项目节点X表示为x1,x2,…,xn,用户节点Y表示为y1,y2,…,ym。在文献[10]中,最后任意项目j分配给项目i的资源权重计算公式见式(1)。

1.2基于加权二部图推荐算法

在文献[10]中,二部图是无权的,项目之间资源分配计算过程中,将项目资源平均分配给用户,同时用户将分到的资源再平均分配给项目。但在实际应用中,用户与项目之间边权具有重要的意义,比如在科研项目合作中,资金按项目的重要程度进行分配。

考虑用户项目之间边的权重,如图2所示,用户和项目之间的边权分别用3,4,5标注,项目将资源按照项目用户之间的边权与该项目边权之和的比分配给用户,第二步按照同样的方式按照用户项目边权与该用户边权之和的比例将资源返回给项目,图2为加权资源分配过程,任意项目j分配给项目i的资源是通过所有与项目i和j都有边的用户进行的,权重计算公式表示为式(3)。

图片图2基于加权二部图的资源分配

wi j=∑ml=1ailajlk(xj)k(yl)(3)

其中:k(xj)表示项目xj连接所有用户边权之和;k(yl)表示用户yl连接所有项目边权之和;ail为n×m的加权邻接矩阵A=(ail)n×m第i行第l列的值,见式(4);xiyl表示二部图中项目xi与用户yl间的边权。项目间资源分配矩阵表示为W=(wi j)n×n。

ail=0,xiylE

xiyl,其他(4)

推荐系统包括用户和项目,用户表示为U={u1,u2,…,um},项目表示为O={o1,o2,…,on},用户对项目的评分形成一个n×m评分邻接矩阵A=(ail)n×m,若用户l对项目i进行了评分,若评分高于某值r,表示用户推荐该项目,ail的值即为评分值(或进行适当的预处理);否则ail=0。根据式(3)计算项目之间资源分配矩阵W,用户ul没有选择项目oi,那么对用户ul推荐项目oi的预测评分可用式(5)表示。由于在利用二部图进行资源分配过程中,考虑到用户与项目间边的权重,所以我们称这种算法为加权网络推断(WNBI)算法。

f′(oi)=∑nj=1wi jajl(5)

1.3算法描述

其中|O|表示集合O的长度。最后再取预测评分最高top-N个项目推荐给用户ul。

1.4算法复杂度分析

在1.3节算法描述第一步计算资源分配矩阵中,第1)~6)行的循环具有线性复杂度O(r),其中r为训练集的长度。在第10)行中,循环次数是取两个项目所连接用户交集的长度,因此循环次数不超过k(oi)和k(oi)中的较小值,假定项目度的平均值记为k(o),那么计算资源分配矩阵的时间复杂度约为O(r+n2k(o)),在实际应用中r远小于n2,如在MovieLens数据集中,共有10000条用户对电影的评分,电影1682部,因此时间复杂度可简化为O(n2k(o))。第二步计算某个用户对项目的预测评分中,很明显时间复杂度为O(n2),因此两步骤整体复杂度为O(n2k(o))。对比CF的复杂度为O(m2k(u)+mnk(o))[3],其中k(u)、k(o)分别为用户和项目的度的平均值。在实际数据集中,用户的数量往往远多于项目的数量,比如“EachMovie”数据集中,包括m=72916个用户,n=1628部电影,因此在m>n的情况下,WNBI算法时间复杂度低于CF时间复杂度。

NBI算法与WNBI算法区别在于算法描述中第5)行所得到的邻接矩阵与第11)行所采用的公式不同,其他步骤相同,因此两者算法复杂相同。在作为复杂网络数学基础的图论中,一般只研究“简单图”,即不考虑两个节点之间的边权,只给出节点之间的相互作用是否存在的定性描述,文献[10]中NBI算法就采用了传统的二部图的表示方法,即不考虑用户与项目之间的边权,提供一个通用的推荐算法,因而忽略二部图边权。

2实验分析

采用标准数据集MovieLens检测WNBI算法的有效性,该数据集来自于网站省略。MovieLens数据集包含1682部电影,943个用户,共有100000条用户对电影的评分,评分为1~5,1表示最不喜欢,5表示最喜欢,其中评分在3分及以上的记录有82520条,如果评分至少3分表示用户推荐该电影,将3分及以上的评分记录构建“用户电影”二部图,那么“用户电影”二部图共有82520条边。按照文献[10]中方法将数据集随机选取其中90%作为训练集,剩余10%作为测试集。本实验每次随机划分数据集后分别用NBI和WNBI两种算法进行评分预测,进行10次取平均值比较推荐结果,因此实验结果是在训练集与测试集都完全相同的情况下进行的对比测试。

2.1基于排名评价

首先采用文献[10]中的基于排名评价方法,利用训练集构造二部图及资源分配矩阵W,根据矩阵W进行电影推荐,然后与测试集中电影进行比较,得到测试集中电影在推荐电影列表中的排名,排名越靠前,推荐效果越好。如果边uloi出现在测试集中,那么该边肯定不会出现在训练集中,因此oi是用户ul在训练集中未选择的电影之一,假设用户ul共有Lj个未选择的电影,若oi在推荐算法中按预测评分排名为R,那么oi的排名相对位置表示为rli=R/Lj,oi是测试集中用户实际喜欢的电影,因此相对位置rli越小,推荐算法越好。

文献[10]中,对NBI、全局排名方法(Global Ranking Method, GRM)[10]和CF进行了比较,结果显示,NBI、GRM和CF 3种算法的r均值分别为10.6%、13.9%、12.0%,显然NBI算法最优。WNBI与NBI算法对比实验结果如图3所示,WNBI算法所推荐的结果同NBI的结果高度拟合,r值几乎相同,但在曲线前段,WNBI算法所命中电影排名略高,表示在推荐长度较小的情况下,WNBI算法略好,但在这种评价方式下WNBI算法优势并不明显。

图片图3测试集中电影的预测排名位置

考虑到实际推荐系统实际推荐产品的个数通常比较少,比如雅虎音乐(new.music.省略/)的个性化推荐包括40首歌,智能社会书签(smart social bookmarks)系统(省略/)的个性化推荐包括20条书签[7]。文献[10]采用一种依赖推荐长度的精确度测量方法,给定了推荐列表的长度L,系统把排名最靠前的L个项目推荐给用户,考察所推荐的L个项目,假设二部图边uloj出现在测试集中,如果oj为所推荐的L个项目之一,那么称oj被算法命中,被算法所命中的项目个数与测试集中所有发生边uloj的项目个数之比为命中率,显然命中率越高,算法越好,因此这种测试方法更具实际意义。文献[10]对NBI、GRM、CF 3种算法在10,20,50,100共4种典型推荐长度下进行了对比实验,结果NBI算法的命中率明显高于CF和GRM。

为了使数据对比更明显,针对所有用户,采用算法所命中的电影个数和均值进行比较,在指定推荐长度的情况下,进行10次随机试验,结果为所有测试用户推荐电影的命中个数的和的平均值,实验结果见表1。从表1中可看出,在指定推荐长度较小的情况下,WNBI算法较NBI算法优越,但推荐长度为50和100时,WNBI推荐效率略低于NBI算法,在实际应用系统中,推荐列表中靠前的项目更具有实际应用价值。

2.2基于命中项目评分值的评价

NBI算法忽略二部图用户与项目间的边权,在数据集MovieLens上推荐测试中,将评分在3~5之间的电影看成同样的推荐权值,并且在算法评价中,无论是基于排名位置还是基于推荐长度的测量方法,都只考虑命中电影个数,没有考虑命中电影的实际评分,认为命中评分为3~5的电影推荐效果是一样的。本文给出一种基于命中项目评分值的推荐算法评价方案,即综合考虑所命中项目的个数和命中项目的实际评分,若命中的项目个数越多、命中项目实际评分越高,则推荐效果越好。

首先,考察被推荐电影的实际评分,表2为不同推荐长度下命中电影的实际评分均值,表明WNBI算法所命中电影的实际评分均值明显高于NBI算法所命中电影评分均值。

表格(有表名)表2命中电影评分均值

推荐长度NBI算法WNBI算法54.204.23104.154.19204.124.15504.084.101004.044.05

其次考虑被命中各评分的电影的平均推荐排名,命中评分越高的电影如果在推荐表中的排名越靠前,推荐算法越好。表3为两种算法命中电影的推荐排名均值。显然,WNBI算法所命中的高分电影在推荐排名中高于NBI算法,比如,采用WNBI算法命中评分为5的电影平均排名为111.31,领先于采用NBI算法命中评分为5的电影平均排名115.27;WNBI命中评分为4的电影排名148.04也略领先于NBI的148.69;而WNBI命中评分为3的电影排名则落后于NBI算法。总的来说,两种算法命中电影总排名效果相当,但WNBI的优势是命中高评分电影排名比较靠前。

表格(有表名)表3两种算法命中电影的推荐排名均值

实际评分NBI算法WNBI算法3213.70218.184148.69148.045115.27111.31

最后,比较在指定长度推荐列表中所命中电影的不同评分的电影数量,命中高评分电影在推荐列表中出现次数越多,推荐效果越好。图4为推荐长度为10和20的推荐列表中命中的各实际评分电影总数量。从图4可看出,WNBI算法命中高评分电影上有优势,比如在推荐长度为10的情况下,WNBI为所有用户推荐的列表中命中实际评分为5的电影个数为515,而NBI算法所推荐的实际评分为5的电影个数为476。

图片图4不同推荐长度下命中各种评分电影个数

2.3算法效率测试

实验平台配置如下: Intel 2.0 GHz CPU,2GB内存,Windows XP,编程语言采用Java。在数据集MovieLens上计算943个用户对所有1682部电影的预测评分,分别采用NBI算法和WNBI算法进行10次实验,取运行时间平均值。采用NBI算法、WNBI算法分别计算资源分配矩阵W、943个用户对1682部电影的预测评分、单个用户对1682部电影的预测评分的运行时间,实验结果见表4。可以看出NBI与WNBI算法运行时间相差非常小,运行时间的细微差异应该是由于运行环境引起的。在实际应用系统中,计算资源分配矩阵W可以在线下进行,计算的结果存入配置文件,并定期进行更新,时间开销主要是为单个用户推荐项目,其复杂度为O(n2),在该实验中时间开销仅约为185ms,所以在项目个数不是特别多的应用系统中,该算法能够高效运行。

参考文献:

[1]WANG F H, JIAN S Y. An effective content-based recommendation method for Web browsing based on keyword context matching[J]. Journal of Informatics and Electronics,2006,1(2):49-59.

第6篇

关键词:采集;模块;系统

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)10-2446-04

Abstract: On the base of social computing personalized recommendation system design, design of the acquisition module is a data source, but also the basis for system data analysis, related to the quality of the system. Therefore, a collection module as a personalized recommendation system, play a decisive role, this paper makes a detailed study of the module, which provides a theoretical foundation for designing the back modules, and also provides some useful experience in development and design for the system.

Key words: acquisition; module; system

基于社会计算的个性化推荐系统的采集模块,关系到系统的质量,为系统的性能指标提供可靠的保证。采集模块实现了对网页文档信息的自动采集“爬虫”功能,能够基于用户的信息关键词来搜索。

采集模块由网页文档信息采集模块、lucene索引建立模块和搜索推荐主干模块构成,分别从模块的描述、功能、输入项、输出项、流程逻辑和接口详细介绍了其实现的原理。

1 网页文档信息采集模块

1)模块描述

本模块的重点之一是网络爬虫的编制。网络爬虫需要实现自动地抓取网页文档,提取网页地址,并且循环进行。尽管网络资源在同一个域之内,但为了提高爬取效率,还需要实现多线程才能保证更新的效率。另外,对于抓取到的文本存储路径相对于网页的网址,必须进行转换,才能更快速地在本地数据库中搜寻到该网页。而对于 IP地址则要做一个判断,以实现在规定范围的搜索。

2)模块功能

主要功能由start函数实现,其原型为:Start(UribaseURI ,intthreads) ,UribaseURI参数是表示需要下载的链接,后面的函数表示线程数量。路径的转换则需要通过转换字符实现。基本功能如表1网页文档信息采集功能表所示:

3)模块输入项

模块输入主要是对爬虫参数的设置,爬虫参数的设置要求如表2爬虫参数设置说明表所示:

4)模块输出项

本系统主要进行新浪博客的网页文档抓取,数据采集结果主要包括该博客网页文档以及该博客的地址,博客的题目、内容、作者以及采集的时间等。

5)模块逻辑流程

本模块的逻辑流程:首先分析源地址,然后获得地址列表,接下来反复循环每个地址,并调用相关方法来获取内容,通过计算,并得到文章相关信息,最后将获得的信息保存在数据库中。

6)模块接口

数据的采集是从新浪服务端将博客网页文档数据存储到本地数据库的过程,模块的接口如图1所示。

2 lucene索引建立模块

1)模块描述

索引建立模块独立于运行平台,实现了文档的解析和索引的创建,在本系统中解析的文档类型主要是html文档。

以 IndexWriter 建立索引 IndexWriter 的构造函数有三种接口,针对目录 Directory 文件 File文件路径 String 三种情况在索引结束时使用 Lucene 的 wirter. optimize( ) 方法优化索引。

2)模块功能

实现模块功能之前需要利用IKAnalyzer中文分词器对文档内容进行分词。分词器IKAnalyzer可以进行文档的筛选,获取目标文档,无用部分则剔除掉。其常用接口有org ,apache, Lucene, analysis,Analyzer 虚构类。

在该模块中主要利用格式转换类的方法,对格式文件采用与其相对应的解析方式来实现格式的转换,HTML文档利用 POI 解析。下一步则是将实现了转换的文件作为分词器的输入,对其进行处理,最后编写框架为所有文档实现索引的创建,通过为字节流创建索引来实现为所有文档建立索引的目标,如表3索引建立模块功能表所示。

3)模块输入项

a)采用IKAnalyzer分析器进行目标文档筛选;

b)利用POI对HTML文档进行解析;

a)后台管理页面数据输入手动操作,下达“索引创建”命令;

d)执行框架语句,通过为字节流创建索引来实现为所有文档建立索引。

4)模块输出项

此模块的操作是通过登入系统后台管理,在建立索引页面下达命令,进行索引的创建,自动生成,如图2 索引创建界面图所示。

5)模块逻辑流程

本模块的逻辑流程是:首先从本地数据库中获取数据,得到待筛选文档,通过判断该文档信息是否为目标文档。如果不是的话,就剔除,重新原有的操作,如果是目标文档,则将目标文档进行格式转换,从而来建立索引。

6)模块接口

从模块逻辑流程可以知道,本模块的接口也是由本地数据库,通过后台管理程序来自动完成索引的建议,其模块的接口如图3所示。

3 搜索推荐主干模块

1)模块描述

模块中包含服务器 Action 类, Action 类有对应的 Service 类和 Lucene 搜索类。连接应用服务器,下达命令之后可以从索引文件中搜寻出目标文档,其整体框架如图4搜索推荐主干模块整体框架图所示。

服务器接收命令,传递给对应的 Action 类, 然后Action 类调用对应的 Service 类,再利用 Lucene 搜索类从找到目标文档,最后在JSP 页面显示搜索结果。此过程中采用 Action 类解析方法,把字节流以JSP 页面高亮显示出来,检索目标文档则是利用 Lucene 的检索接口 Query 与QueryParser 实现。采用QueryParser.parse 完成对搜索结果的排序,通过org.apache.Lucene.search.Sort 实现,。

2)模块功能

服务器可以利用搜索模块传递文档 URL,进而搜寻到文档的位置,并采用文件系统将文档解析到一个动态页面,即一个可以显示不同文档内容的页面。最后是将搜索结果,即找到的目标文档 URL 集合倒排展示,并且对输入的关键词,以及关键词出现次数等,以高亮显示出来,如表4搜索推荐主干功能表所示。

3)模块输入项

a)前台页面数据输入:名称:搜索关键词;标识:keyword;数据类型:varchar;数据来源:用户键盘输入。

b)模块类调用命令:

服务器识别用户提交的关键词,传递给对应的 Action 类,Action 类再调用对应的的 Service 类,然后交给 Lucene 的搜索类处理。

4)模块输出项

Jsp界面将搜索结果推荐出来,以高亮显示博客作者,搜索关键词以及关键词出现次数等,如图5搜索结果推荐页面图所示:

5) 模块流程逻辑

本模块的逻辑流程是:首先从接收搜索命令获得搜索的目标,传递给Action类,从而找出其对应的Service类,再通过Lucene搜索类来实现目标文档的推荐,最后以设置好的高量度形式显示出来。

6) 模块接口

本模块主要是把数据存储层的数据,通过业务逻辑层的业务处理,来实现表示层的表示,从而实现目标文档的搜索推荐功能,其接口如图6 搜索推荐主干模块接口图所示。

4 模块管理

为了更好的实现资源的统一管理,将其设计在后台统一界面进行管理,其管理页面结构如图7统一管理结构图所示。

参考文献:

[1] 詹茂森.基于社会计算的个性化推荐系统的设计[J].电脑知识与技术,2013,12.

第7篇

[关键词] 电子商务 体育营销 个性化推荐系统

近年来,电子商务的快速发展极大地改变了传统的贸易模式,为企业和消费者提供了一个相互交流的便捷平台。本文旨在提出一个适合于体育营销的个性化推荐模式,以期使电子商务能广泛、高效地为发展体育事业服务。

一、国内电子商务个性化推荐系统的现状

目前个性化推荐已开始在国内电子商务领域初现端倪,pc零售业的巨头——dell公司正是通过提供个性化推荐在电子商务活动中获得了巨大的成功。然而,在电子商务推荐系统的应用方面,国内电子商务网站与国外网站相比差距还较大,主要表现在:

1.缺乏个性化的推荐: 由于很多推荐笼统地粗放地面向所有用户,而非个性化的推荐,其结果与每一用户的特殊兴趣并不相符合,这是我国电子商务推荐系统最主要的缺陷。

2.推荐的自动化程度低: 大多数的推荐功能都需要用户经过一段时间与计算机进行交互,输入自己感兴趣的信息,然后才能得到结果。并且,系统不能保存用户每次输入的信息。总体来说,所有的推荐策略都基本上停留在查找这一层次上,不能实现自动推荐。

3.推荐的持久性程度低: 目前大多数的推荐策略都是建立在当前用户会话的基础上,不能利用用户以前的会话信息,因而推荐的持久性程度非常低。这也是国内推荐系统的不足之处。

4.推荐策略单一: 大多数推荐系统所用的推荐策略基本上就是分类浏览和基于内容的检索,缺乏多种推荐策略的结合使用,尤其缺少个性化与非个性化推荐策略的混合使用。

产生以上问题的主要原因,首先是消费者对电子商务不信任的社会心理还比较普遍,不愿提供真实的个人信息。其次,是现实生活中电子商务个性化推荐不到位,管理制度不完善,无法达到消费者要求的水平,建立提供电子商务个性化推荐的网络系统的技术也欠发达。

二、电子商务个性化推荐系统及其分类

电子商务个性化推荐系统(personalized recommendation systems for e -commerce)的正式定义由resnick & varian在1997年给出:“电子商务个性化推荐系统是利用电子商务网站向用户提供产品信息和相关建议,帮助用户决定购买什么产品,通过模拟销售人员帮助用户完成购物过程的系统”。这个定义现在已被广泛引用,推荐系统的使用者是用户(电子商务活动中的用户)(user),推荐的对象是项目(item)。项目是推荐系统提供给用户的产品或推荐,也即最终的推荐内容。

根据推荐对象的特点,目前存在的推荐系统可以大致分为两类:一类是以网页为主要推荐对象的推荐系统,它主要采用web数据挖掘,尤其是使用web日志挖掘的方法来分析用户的兴趣,向用户推荐符合其兴趣爱好的网页链接。另一类推荐系统的推荐对象主要是产品,这种系统主要在电子商务网络购物环境中使用,帮助用户找出他真正想要的产品。

三、电子商务个性化推荐系统模块

1.输入模块(input):主要负责对用户信息的收集和更新。输入来源按时间划分,可分为用户当前行为输入和用户访问过程中的历史行为输入;也可以分为个人输入和群体输入两部分。输入形式主要包括:用户注册信息输入、隐式浏览输入、关键字输入、编辑推荐输入、用户购买历史输入等等。

2.推荐方法模块(recommendation method)是整个推荐系统的核心部分,它直接决定着推荐系统的性能优劣。推荐方法模块是以推荐技术和推荐算法为技术支撑。

3.输出模块(output)负责将推荐结果输出给用户。输出形式主要包括相关产品输出、个体评分输出、相关推荐输出等。

四、电子商务个性化推荐系统的体系结构

与传统的网站系统相比,个性化的电子商务系统有一个很大不同之处:个性化的电子商务网站一般都没有静态页面,这是由http协议的“无状态性”所决定的。浏览器与web推荐器之间的一个交互过程如图1所示。

       

从上图可见,客户机浏览器与web推荐器之间采用tcp连接,并且该连接状态在此次连接过程中尚能保持。但是,web推荐器在发送给客户机应答信息后,便“遗忘”了此次交互,无论web推荐器和客户端浏览器都不会记忆上一次连接的状态。目前,解决这个问题的方法一般有两种:

1.使用cookie。cookie是存储在web客户端机器上的一个小文本文件。web推荐器端的处理程序可以创建一个cookie,然后让推荐器把该信息发送给客户端的浏览器。浏览器收到信息后即把数据存储在客户端的硬盘上。以后,当该客户再次访问该站点时,推荐器的处理程序向客户机的浏览器请求该cookie。 通过cookie,可以使推荐器端的处理程序具有交互性。

2.采用全动态的页面。“全动态”是指在获取用户的身份信息后,在用户访问的每一个页面中都写入系统分配给顾客的一个唯一标识,当用户向推荐器提交推荐请求时,这个标识也一起传送到了推荐器。这样,推荐器端的处理程序可以从这个标识中获取用户的身份信息。采用这种方式,不同的用户拥有不同的标识,不同的顾客也就有了一套不同的页面。这些页面只可能通过处理程序来动态生成。

因此,一个个性化的电子商务系统一般是没有静态页面的。综上所述,一个个性化电子商务网站的基本结构如图2所示。        

五、个性化处理单元的设计

1.个性化处理部分:这是个性化处理单元中一个很重要的部分,它与接口部分协作,完成了个性化网页的生成工作。个性化处理部分一个大致的工作流程如下:(1)确认用户身份,以便对不同的用户提供不同的推荐。如果由于输入错误或其他一些原因,用户可能无法通过身份认证,对此系统可以有不同的处理方式。(2)获取用户配置信息。用户在通过认证后,系统将从后台数据库中获得用户配置信息,如用户的兴趣、爱好等等。根据系统的不同,需要的用户配置信息也会有所不同。(3)生成动态页面。匹配中心根据用户的配置信息,与相应的数据库进行交互,动态生成页面。 最后通过连接管理模块将结果页面发送给web推荐器,最终由推荐器将页面返回给发送请求的用户。

2.管理部分;其工作是在后台管理整个系统的运行,对于一个个性化系统来说,管理部分还有一些特殊的地方:(1)管理工作的内容比较繁杂。管理工作有的是直接为访问网站的用户推荐的,有的是为网站后台应用服务的。(2)进行管理工作的人员也比较复杂。在一个个性化的系统中,高级决策人员、销售人员、网页维护人员等都可以进行相应的管理工作。正因为如此,管理部分成为个性化系统中一个不可缺少的部分。管理部分共有内容管理模块、规则管理模块、后台管理模块三大块,每个模块的功能都不相同。

3.接口部分:这一部分包括接入管理模块和数据库接口两部分。个性化处理单元处于web推荐器与后台数据库之间,它通过接口部分与web推荐器和数据库连接。因此,接口部分在 web推荐器、个性化处理单元和数据库间起到了一个“桥梁”的作用。(1)接入管理模块。接入管理模块的主要功能是接收web推荐器发送的请求信息,并将产生的结果页面返回web推荐器。根据web推荐器中htp网关的不同,接入管理模块可以是一个外部的应用程序,或者是一个连接入推荐器的模块。(2)数据库接口。数据库的接口大致可以分为两类:通用接口和专用接口。通用接口,如odbc, jdbc等,可以连接到多种数据库。专用接口只能对应于某种专用的数据库。但通用接口在速度方面不如专用接口。根据网站规模的不同、经营项目的不同、硬件设备的不同,库接口都会有所不同,这需要具体问题具体分析。

六、结束语

电子商务网站为终端客户和分销商等商业个体提供商业信息交流的平台,如何对系统留下的大量冗余的商业数据再利用是一个具有挑战性的问题。随着数据挖掘技术的成熟,尤其是web挖掘技术的产生,如何提供电子商务网站个性化推荐越来越受企业关注,也是保障企业生存发展的重要因素之一。

参考文献:

第8篇

随着Internet的普及,信息爆炸时代接踵而至,海量的信息同时呈现,使用户难以从中发现自己感兴趣的部分,甚至也使得大量几乎无人问津的信息称为网络总的“暗信息”无法被一般用户获取。同样,随着电子商务迅猛发展,网站在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。

个性化推荐,被认为是当前解决信息超载问题最有效的工具之一.推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。

二、个性化推荐系统概述

个性化推荐系统是指根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。它是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。购物网站的推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求。

2000年,我国正式开始了个性化推荐的研究,清华大学的陆海明等提出了基于Agent多混合智能实现个性化推荐;2001年清华大学的冯翱等人提出了基于Agent的个性化信息过滤系统Open Bookmark;南京大学的潘金贵等人设计并实现了个性化信息搜集智能体DOLTRL-Agent。近几年来,个性化信息推荐服务逐渐从理论走向实践,从探索走向完善,逐步成为商业界的焦点。

三、常用的个性化推荐系统算法分析

下面对常用的个性化推荐系统的算法进行简要的分析。根据算法的不同,当前已有的个性化推荐系统大致可以分为以下几类:基于规则的推荐系统;基于内容的推荐系统;协同过滤系统;基于用户-产品二部图网络结构的推荐系统;以及混合式推荐系统。

1、基于规则(Rule-based)的推荐系统

关联规则挖掘是数据挖掘领域的一个重要分支。对于基于关联规则的推荐算法来说,其作用机理就是:首先统计得到挖掘出的规则前件,然后针对目标客户的历史购买行为,向顾客推荐规则后件。该算法的优点是容易理解,研究基础广泛且成熟,支持其实现的软件丰富,有较好的实践条件;缺点是随着事务的增多,规则的发现将非常耗时,并且规则难以解释。

2、基于内容(Content-based)的推荐系统

基于内容的推荐起源于信息检索领域,它利用资源和用户兴趣的相似性来过滤信息。首先分析项目的内容,根据用户评价过的项目建立用户的兴趣模型,即用户描述文件。根据用户描述文件的不同又可以分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐。

基于内容的算法的优点是直接、简单,推荐结果易于解释。但也存在一定的局限:首先,特征提取能力有限,它仅适用于产品特征容易抽取的领域,当项目特征很难被一组关键词来清晰描述时,基于内容的推荐算法就显得苍白无力了。

3、协同过滤(Collaborative filtering)系统

协同过滤是目前应用研究的最为广泛最成熟的个性化推荐技术。主要分为基于用户的协同过滤系统和基于项目的协同过滤系统。其核心思想是:首先,基于系统中已有评分数据,计算给定用户(或项目)之间的相似性;然后根据计算得到的相似性,寻找目标用户(或项目)的最近邻居集合;最后使用最近邻居集合中的用户(或项目)的评分情况来预测目标用户对目标项目的评分值。

协同过滤的推荐系统主要优点有:

(1)对内容信息不易抽取的项目能产生完全自动化的推荐;

(2)能根据项目的质量和用户的品味产生推荐;

(3)能为用户发现新的兴趣。当然,协同过滤推荐系统也存在一些弊端:

(1)数据稀疏性问题,这也是协同过滤系统目前存在的最普遍的问题。

(2)冷启动问题,当一个新项目刚加入系统的时候,由于没有任何用户对它进行过评分,该项目便无法得到推荐。

(3)同一性问题,对于名称不同本质相同的项目,协同过滤无法发现潜在的联系;

(4)扩展性问题,随着系统中项目和用户数量的增多数据库将变得非常庞大,为用户产生推荐的精度和实时性都因此而降低。

4、基于用户-产品二部图网络结构(Network-based)的推荐系统

基于网络结构的推荐算法不考虑用户和产品的内容特征,而仅仅把它们看成抽象的节点,所有算法利用的信息都藏在用户和产品的选择关系之中.分别利用用户一产品用二部分图建立用户―产品关联关系,并据此就提出了基于网络结构的推荐算法。其中,提出了一种全新的基予资源分配的算法,通过在协同过滤算法中引入二部分图上的扩散动力学,部分解决了数据稀疏性的问题。

5、混合式(Hybrid)推荐系统

基于规则的、基于内容的以及协同过滤的推荐算法由于自身的特点,在实际应用中都存在一些缺陷,因此就提出了把多种不同算法结合起来形成混合算法的解决方案。

四、个性化推荐系统对电子商务网站的意义

个性化推荐系统作为一种电子商务服务,是网络营销的重要手段。据VentureBeat统计,Amazon的推荐系统为其提供了35%的商品销售额。个性化推荐系统能够有效地留住顾客、防止顾客流失,提高销售额,因此受到越来越多的关注。综合来看,个性化推荐系统对电子商务网站的意义,主要可以概括为以下几点:

1、把网站浏览者转变为购买者

有些用户浏览网站并非有有购买目的,如果网站通过个性化推荐系统对其进行推荐,有可能使顾客形成购物冲动,从而促进销售。

2、提高电子商务网站的交叉销售能力

个性化推荐系统可以发现顾客所购买商品之间存在的内在关联,网站可以根据推荐算法的输出结果,对相关商品进行组合推荐、捆绑销售等,从而促进销售。

3、提高顾客对电子商务网站的忠诚度

个性化推荐系统可以让顾客受困于海量的信息当中,因此适当的使用个性化推荐系统对顾客进行商品信息推送可以提高顾客的购物舒适度和满意度,从而提高顾客的忠诚度。

4、优化电子商务网站

根据Web日志数据分析用户的行为模式,推荐超连接列表,或者动态地生成可能的网页超链接。尽可能迎合每个用户的浏览兴趣并且不断调整网站链接结构适应用户浏览兴趣的变化,使每个用户在浏览网站时都有该网站的唯一用户的感觉。

五、结语

网络交易量不断增长的时代,已经出现了很多实用的个性化推荐系统。它能够利用顾客期望的产品单、购物车、顾客提交的评价以及购买记录等,为顾客推荐适合的产品,提供多项推荐服务。本文简单介绍了几类基于不同推荐算法的推荐系统.虽然这些推荐系统都已经投入应用,并且取得了可观的经济效益,然而,这些系统都面临着许多问题,需要从理论和应用角度进行深入的研究。(作者单位:山西省运城市广播电视台)

参考文献

[1]张靖.网络个性化服务资源综合推荐研究[J].计算机仿真.2009.26(11):157-165)

[2]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展.2009.19(1):1-15

[3]李智琦,陈世颖,杨怡凝.基于数据挖掘的个性化推荐在SNS中的应用[J].电脑知识与技术.Vol.7,No.28,October 2011.

[4]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报.2002.13(10):1592-1561

[5]吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J],情报学报,2006,25:55-62

[6]王茜,杨莉云,杨德礼,面向用户偏好的属性值评分分布协同过滤算法[J],系统工程学报,2010.04

[7]Lin Hongfei,et al Text Browsing Based on Latent Semantic Indexing[J]. Joural of Chinese Information Processing, 2000, 14(5):241-245.

第9篇

【关键词】 个性化推荐系统 中职 大数据 驾驭

计算机技术的迅速发展和广泛应用,使大数据成为计算机技术的必然产物及各个领域的热门话题。大数据对社会经济、政治、生活以及文化等方面都有着深远的影响,为各个领域带来了机遇和挑战,教育领域也不例外。随着大数据概念和个性化推荐系统的引入,教育信息化也展现出前所未有的发展趋势,可以说教育和计算机技术的相融合,不仅提高了学习者整理和分析信息的能力,同时也推动了教育改革和教学创新。

一、大数据和个性化推荐系统

1.1大数据的概念

大数据是人们在长期应用和研究数据的基础上,尤其是随着计算机技术的深入应用,在大量数据的背景下营运而生的,可以从众多无规则的数据中整理、筛选出有价值的信息,从而为各行业服务,因此,大数据也称为“巨量资料”。当前,大数据已经不再仅局限于描述和存储海量数据信息,同时还可以帮助人们客观地发现隐藏在海量数据背后有价值信息的真相。

1.2个性化推荐系统

个性化推荐系统则是基于用户基本特点及实际需求,从而为广大用户提供相应的个性化服务,目前有众多研究者和开发者不断研究和使用个性化推荐技术,例如视频网站、社交网站和购物网站都实现了个性化推荐服务,但是至今为止,个性化推荐系统的概念和定义还不够明确,通常情况下是采用Resnick和Varian在1997年关于个性化推荐系统的定义:个性化推荐系统则是在计算机技术及网络技术应用基础上,针对广大用户实际需求提供相应的商品信息及建议,从而为用户产品购买提供相应帮助,也就是模拟产品销售人员对用户产品购买提供帮助的过程。

二、个性化推荐系统设计

2.1大数据环境下的个性化推荐系统

大数据环境中信息过载已成为事实,个性化推荐系统是在帮助教学过程参与者,即教师和学生,快速有效地获取所需项目对象的目的下产生的。推荐系统在个性化教学中得到了充分的应用,例如在中职《Java程序设计基础》课程学习中,有大多数学生都做错了关于“插入排序算法”的题,但是在浏览学校论坛文章的数名学生中,有78%的学生都不会在再次做此题时出错,因为当有学生犯同样的错误时,推荐系统会自动推送相关论坛文章帮助学生解答疑惑,在这里,确定适合学生学习的论坛内容凭借的是“项目相关计算”的手段,而不是根据学生的自行判断。

2.2了解用户需求分析

个性化推荐系统的用户多为中职院校的学生,主要是将网络学习作为主要学习方式或者辅助方式,用户通常也就是计算机专业学生或者是熟练应用教育资源网站的学生和教师等。针对学生来讲,传统教学模式需要受到时间空间的限制,无法实现面对面指导,因此学生在采用网络学习过程中往往会出现一定的迷茫,无法在大量网络数据中迅速找到自己所需的学习资源,消耗时间比较长。而推荐系统的主要功能就是可以根据学习者的特点和学习兴趣,可以为学习者推荐合适的学习资源,从而有效地为用户提供个性化资源服务[2]。另外在进行资源推荐过程中通常出现一个URL,所以当学生对资源点击下载时,程序会通过URL从网络上下载与学习资源相应的资源。当学习资源被下载到手机客户端时,学习者则可以结合自己的实际需求,不受时间及空间限制下载资源查看、标记及共享等等,并且学习者关于这一资源的相关操作,均会在客户端上进行详细记录并传送,进一步被服务器所记录并保存到数据库中,以便对学生的推荐资源进行计算。随着学生使用推荐系统时间的增加,服务器在学生输入信息记录过程中也会有显著提升,这样也就进一步提高推荐系统服务准确性。可以说个性化推荐系统就像电子购物网站一样,可以根据学生的具体需求、学习风格以及学生的浏览记录作为推荐依据,从而为学生推荐适合的学习资源,大大提高了学习者寻找资源及学习的效率。

三、个性化推荐系统在中职教育中的应用

3.1更新了教育理念、教学思维及教学评价

随着大数据时代和个性化推荐系统的深入推进,中职教育理念、教学思维及教学评价等方面都发生了更新和变化。在大数据时代,教育领域充满了海量数据,如学校教师和学生的言行举止、学校里的事物都可转化为数据信息。中职学生在用计算机终端学习时,通过研究学习者的活动轨迹和系统的推荐,包括作业完成情况、课堂言行、师生互动、自主学习及同学交流等活动,都将成为教育大数据的来源,此时大数据环境下的个性化推荐系统也比传统数字更具有含义和价值,其可以通过大数据技术层面对教学活动进行分析、评价及提高,而教育也不再是依靠教W经验和理念来传授知识[3]。可以说,个性化推荐系统将步入实证时代,变成一门基于数据研究的学科,充分挖掘符合教学和学生的教育、学习及评估等实际情况,从而规范地制定和执行教育规则,构建更加符合中职教育的教育教学策略。

3.2实现课堂教学、学生学习差异及个性化需求

大数据环境下的推荐系统具备的一个显著特点就是充分体现了学生学习和课堂教学真正意义上的个性化。例如美国的科罗拉多州的一所学校实施了“教育信息系统计划”,其是通过收集、整理及分析学校教师和学生的所有信息,旨在更好地帮助学校改进教学手段,更好地帮助学生获得学业上的知识。系统设计的重点是将所收集到的学生和教师的数据内容通过计算机信息技术联系起来,通过推荐系统的数据分析,让教师在获取更全面和更丰富的教学资源的同时,了解采用哪一种教学手段对学生的授课最有效,同时还可以及时了解到学生在学习过程中遇到的困难,并针对学生的特点进行个性化教学活动设计、学习计划以及对差异化的教学方案进行创新,从而大幅地提升教学质量。而学生则可以在教师的针对性指导下,提高自己的成绩和综合素质。

3.3提高和完善了学校的管理体系

学校是培养人才、传授知识及创造知识的场所,在学校管理中不管是活动控制还是决策,均需要一定的信息,比如在进行目标制定、教学计划设计以及教学组织评估过程等等。而个性化推荐系统在中职教育中的应用,不仅提高了教育管理,同时也实现了教育教学的科学化和精细化。推荐系统中不仅蕴藏着海量的资源信息,并且还可以在收集整理信息的同时产生新的数据,由此可见大数据处理及推荐系统在学校管理各个部门及活动中有着重要的作用,其可以对学校进行系统的规划和梳理,将所收集到的数据信息细化和标准化。同时,针对学校管理的数据或者对象,推荐系统可以从不同维度记录数据和对象,同时不同数据也能够实现印证,有助于构建多源管理大数据,重点集中在过程管理、活动管理及决策管理过程中,从而最终在学校管理大数据中[4]。

四、总结

大数据时代的到来和个性化推荐系统的推进对教育领域而言是新生事物,但其也是教育领域未来发展的必然趋势。围绕大数据环境下的个性化推荐系统在中职教育中的深入应用,软件开发者需要在今后的研究实践中不断地进行探索和发现。随着个性化推荐系统及其相关技术的完善和广泛使用,其在教育领域中的研究将会越来越全面和深入。

参 考 文 献

[1]金志福. 基于大数据的教育资源个性推荐系统设计与实现[D]. 中国科学院大学, 2015.

[2]尤伟静. 简析大数据及其在教育领域的应用[J]. 科学时代, 2015(10).

第10篇

关键词:隐语义模型;信任关系模型;个性化推荐;冷启动;社交网络

1 概述

目前个性化推荐算法大体可分为基于协同过滤技术的推荐算法和基于内容的推荐算法两大类。协同过滤技术是根据邻居用户的资料对目标用户进行产品推荐。基于内容的推荐是推荐与目标用户以前选择的产品相似的产品。然而,基于用户相似度的协同过滤推荐系统需要用户对多个商品得评分,而对于新用户来说并没有商品购买行为,也就没有评分,因此很难对其进行推荐[1]。在基于显式标签的推荐系统中,需要用到人工对用户还有产品进行打标签分类,但是这种方法具有一定的局限性。为了避免人工分类的局限性,我们可以从用户的行为数据出发,运用隐语义模型,自动找到那些类然后进行个性化推荐。

2 隐语义模型

隐语义模型LFM属于隐含语义分析技术,是用来找出潜在的主题或分类。

3 用户社交关系信任网络

在系统中,用户不仅可以对不同商品的评分,还可以基于用户之间的信任关系对不同的用户进行打分[2]。

本文将有直接信任关系的用户之间的信任强度设定为1,并假设用户之间的信任是可传递的。传递的规则如下:给用户u,该用户对其他用户v的信任强度与他们之间的最短路径直接相关[3]。具体来讲,如果我们仅考虑d阶最短路径之内的节点(即对于用户u来说,与其最短距离超过d的用户将不予考虑),那么与源点u之间最短路径为n的用户被u信任的程度为:Tust=(d-n+1)/d。

4 融合信任感知的推荐系统结构

信任矩阵(代表所有用户的信任关系)和评分矩阵(表示由用户给定的项目的所有的评分),作为整个系统的输入,并且产生该用户对项目矩阵的预测的评分作为输出。

5 实验结果及评估

本文使用的数据基于的交易数据,在用户不仅可以在线购买多种商品,还允许对其他用户进行打分,于是系统中就有了可用的信任关系网络。

整体来看,综合用户信任关系及隐语义模型的方法比传统的协同过滤方法更优,其用户覆盖率以及评分覆盖率都优于传统的协同过滤方法。尤其是在对新用户的预测上,新的方法可以弥补传统的协同过滤的不足。

当信任距离大于1时,基于信任度的混合算法在全部用户上的评分覆盖率和用户覆盖率都优于用户协同过滤。正如预期的那样,传播距离越大,用舾哺锹屎推婪指哺锹试礁撸其对应的预测误差也就越小。对于缺少评分数据的冷启动用户,相对于用户协同过滤,基于信任网络的混合推荐算法得到了更高的评分和用户覆盖率以及较小的误差。例如对于全部用户来说,对大距离为4时,评分覆盖率为72%,用户覆盖率为57%,MAE为0.805,MAUE为0.850都优于用户协同过滤。

6 结束语

本文的主要目的是使用基于信任网络的混合算法提升推荐系统的性能。本方法对于解决推荐系统的一些传统问题,例如“新用户冷启动”问题有非常显著的帮助,经过试验对比,新的混合算法在用户和评分覆盖率上有了提高,而且从计算的复杂度方面来讲,不需要通过对比用户对商品的评分情况找出“参照用户”,而是通过用户之间的信任关系达到这一目的,因此可以减小计算量。

参考文献

[1]P Massa,P Avesani. Trust-aware Collaborative Filtering for Recommender Systems[J].Springer Berlin Heidelberg,2004,3290:492-508.

[2]CN Ziegler,G Lausen. Spreading activation models for trust propagation[J] .IEEE International Conference on E-technology,2004.

[3]F Ricci,L Rokach,B Shapira,PB Kantor. Recommender systems handbook[J].Springer, 2011:1-35.

[4]王升升,赵海燕,陈庆奎.个性化推荐中的隐语义模型[J].小型微型计算机系统,2016,5:881-889.

[5]丛丽晖,王科,夏秀峰.利用信任支持度构建客户信任网络[J].计算机工程与应用,2012,48(6):110-115.

[6]李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,4(2):30-39.

第11篇

关键词:复杂网络;社区检测;个性化推荐;推荐系统

1概述

随着网络技术的飞速发展,推荐技术的研究已经成为很多交叉领域的热点,其理论和应用的价值和意义非常重大。而推荐系统近些年来越来越受人们的关注,呈现出欣欣向荣的发展趋势,包括电影、音乐、新闻、著作、科研论文等都非常普及,逐渐成为我们生活中必不可少的一部分。推荐系统是指根据用户的喜好,来为用户中的成员提供个性化推荐的系统。现实生活中这样的系统比较多,如豆瓣读书中的“豆瓣猜”功能,它就是根据你看过书和读后评价,与整个豆瓣社区其他会员看过的书与评价,就可以给你推荐你没读过但感兴趣的书;淘宝等购物网站通过用户浏览记录、登录信息和购买信息等数据分析用户的偏好、购买能力找到用户感兴趣的东西,提高网络交叉销售能力等。

随着博客、微博、微信、QQ等各种网络社交平台的涌现和发展,学术界对网络结构及其演化的研究有了更广泛的关注,将单一对网络的研究扩展到移动互联网应用、生物医学、科技等商业应用中。个性化推荐技术是在信息检索的基础上发展起来的,它是经过分析用户的行为特征,挖掘每个用户特有的偏好,然后再根据用户的喜好从海量数据中挖掘用户最可能感兴趣的信息,推荐给用户。

基于社区的推荐技术也逐渐成为推荐技术研究的一个热点,研究者们利用网络分析、链路预测等对网络中的个体用户的属性进行分析,记录其个性化偏好,为其进行最合适、最有价值的和最感兴趣的推荐,虽然目前这些技术已经有了很大的关注,也取得了一定的成果,但是这些研究也只是针对静态网络,而网络实际上是动态演化的,因此,个性化推荐系统中社区用户也是动态变化的,不仅如此,社区中用户的偏好也是可能发生变化的,所以,我们需要基于动态演化网络来进行个性化推荐技术的研究,以此来提供更好的服务,更合适的推荐。

2复杂网络

复杂网络的相关研究进入中国已经十年,在过去的十年中,很多研究方向受到来自不同研究领域学者们的广泛关注,并极大地推动了复杂网络和复杂性科学的发展。现代网络科学对我们学习和理解复杂网络有非常重要的作用,复杂网络是研究复杂系统地一个角度和方法,研究和挖掘出了各种各样的具有一定普适性的网络特征,如无标度现象、小世界效应、社团性等。而进行社团结构的研究和分析有助于我们更好的理解复杂网络结构及其演化机制。

复杂网络可用来表示众多的社会、生物和通信系统,其中节点表示个体或者组织,边表示节点之间的交互关系。通过对复杂网络的研究,人们可以对模糊世界进行量化和预测,目前只有基于复杂网络的研究成果,能够在一定的范围内对事物的发展和运行进行简单预测,并且能够对网络崩溃进行一定的预告。

3动态社区检测

网络中的社团就是指一组内部节点联系紧密与网络中其他节点链接稀疏的节点的集合,也就是说社团内部节点的联系是非常紧密的,而社团间的节点联系相对而言联系就比较稀疏,社团也可以被称为“簇”,通常社团中的节点拥有相似性。

近些年来,不同领域的学者们从不同角度使用不同方法对社区结构进行了深入的研究和探讨,提出了许多经典的社区检测算法,如基于模块化的算法,随机游走算法,聚类算法和基于矩阵分解算法,社区检测算法在许多方面与聚类分析很相似,许多聚类算法(k-means、DBSCAN)可以很容易改变成社区检测算法。现有的社团结构的检测方法大多只适用于静态网络,然而大多数复杂网络例如生物网络、社交网络、电力网络等都不是静态的,其拓扑结构随着时间的推移在不断发生变化,因此网络中的社团也不是静态的,是一个消亡,新生,收缩,扩张,分裂和融合的过程,近些年了,研究着相继提出了一些新的动态社区发现算法。

第12篇

〔关键词〕读者属性;纸质图书属性;读者借阅偏好;专业纸质图书推荐;非专业纸质图书推荐

〔中图分类号〕tp393.1〔文献标识码〕a〔文章编号〕1008-0821(2013)08-0068-05

随着高校数字图书馆图书的增多,读者不知道如何在几十万、几百万的馆藏图书中快速找到自己偏好的图书。于是出现了个性化图书推荐系统,通过web服务器收集图书信息[1]、借阅时间评分[2]、类别[3]、图书和用户多特征[4]、聚类[5]等推荐技术,分析读者的借阅记录、行为,获取读者的借阅偏好,向读者推荐图书,实现个性化服务。

例如:针对目前个性化推荐服务推荐质量不高的问题,将数据挖掘中的关联规则应用到真实的借阅记录[5]。根据读者对图书借阅记录,建立读者——图书借阅网络、读者——读者借阅网络,将不同背景的读者联系,构建个性化图书借阅推荐系统[6]。研究图书和作者推荐,提出一种组合两种基于项目协同过滤算法来预测读者所喜欢的图书和作者,扩展作者预测到图书列表,帮助读者决定要看哪种书,并在litrec数据集中测试提出的算法。为处理大学图书馆信息超载问题[7]。文献考虑读者借阅图书的主要目的是课程学习和学术研究,根据图书馆借阅日志,提出基于项目分类的协同过滤算法和基于概率的算法[8]。认为文学阅读或休闲阅读不同于科学阅读,因为读者寻找图书的目的不仅仅是图书的主题,还包括作者、图书的写作风格。在litrce数据集中证实了图书的写作风格影响读者选择图书,图书的目录、写作风格特点可用于提供图书推荐效果[9]。在图书馆整合基于问题的学习(pbl)模式和图书资源,提出一种新的智能手机位置感知的图书推荐系统(imlbrs),使用地图导航和图书推荐功能搜索图书[10-11]。针对数据稀疏性问题,把读者——资源交互作为图来分析,在网络模型中采用链路预测方法推荐图书[12]。针对推荐系统不能分析图书的信息、缺乏反馈信息给读者、不能为读者提供足够的信息决定是否图书的问题[13]。利用聚类,为背景相异的读者提供电子图书个性化推荐、个性化荐购[14]。

另外,传统基于协同过滤的电子商城商品推荐思想:如果一些用户与目标用户对某些商品的评分比较相似,认为这些用户是目标用户的最近邻居,目标用户对未评分商品的偏好等同于最近邻居对该商品的偏好。推荐方法面临用户评分数据稀疏时用户共同评分项目很少的问题。电子商品、电子图书没有受到复本的限制,同一时间允许购买、借阅的次数不受限制。但高校图书馆的馆藏纸质图书受到复本的限制,每种纸质图书的复本数一般为2~5册,若纸质图书推荐仍然单纯以电子商品推荐中的共同评分的项目集合为依据,将导致同一时间段能借阅同一种纸质图书的共同读者更加少。若要推荐给读者的某种纸质图书的复本在某个时间段全部被外借(即该种纸质图书没有复本在架),则需要借阅该种图书的读者只能等到该种图书的复本归还后才能借。而当该类图书的复本归还图书馆时,之前想借阅该书的读者可能已经不需要借阅该书,或已经忘记要借阅该书了,这影响图书馆对读者的服务。

通过对读者借阅不同类图书的偏好进行统计,发现借阅专业类图书、h(语言文学)类图书的时间比较长,借阅其他类的时间短[17]。因为学习专业类、语言类图书,需要读者花费很多的时间去理解、记忆很多内容,而其他类图书只需要大致的阅读即可。但现存的图书推荐技术,单纯的把读者借还图书的时间间隔作为读者对图书的偏好,没有考虑到相同页数不同类别的图书对需要阅读时间的差别。通过对读者成绩排名与读者借阅专业图书的偏好情况进行研究,发现大部分的读者,越偏好于借阅专业图书,成绩排名越靠前[18]。现存的推荐方法只追求推荐的准确率、覆盖率,不区分专业图书与非专业图书推荐对读者成绩的影响。

文章以高校本科生作为读者借阅偏好的研究对象。首先建立读者属性矩阵

、纸质图书属性矩阵、读者借阅偏好矩阵。通过借阅证号建立读者借阅偏好矩阵和读者属性矩阵的关联,通过索书号建立读者借阅偏好矩阵和纸质图书属性矩阵的关联。定义页数的借阅时间权重、出版年份的新书权重、图书类别的借阅权重。最后,根据大学阶段课程设置的特点、读者借阅偏好,分别向读者推荐有复本在架的专业纸质图书和非专业纸质图书。

2纸质图书推荐

2.1专业图书借阅偏好

高校大学专业课程的设置由教育部规定,同一专业不同届但相同年级的学生授课内容基本一样,并且遵循先开设基础课、简单到难遵循渐进的原则。如计算机专业的学生,大学一年级阶段一般都开设《计算机应用基础》、《c语言程序设计》等基础课程,大学二年级才能开设《数据结构》课程。因为学习《数据结构》需要学生掌握计算机基本操作、程序设计的内容。到更高年级的时候,只有学习《数据结构》的知识,才能开设《算法设计与分析》等更专业的课程。由此可见,同一专业不同年级的读者开设的课程往往不一样,但同一专业同一年级的读者开设的课程基本一样,对专业图书的借阅偏好也相似。

4结语

本文以高校本科生作为读者借阅偏好的研究对象,提出复本受限下高校读者借阅偏好的纸质图书推荐。分别构建读者和纸质图书属性矩阵、读者借阅偏好矩阵,分别定义基于页数的借阅时间权重、基于出版年份的新书权重、基于图书类别的借阅权重。由读者借阅证号建立读者借阅偏好矩阵和读者属性矩阵的关联,由索书号建立读者借阅偏好矩阵和纸质图书属性矩阵的关联。根据大学专业课程设置的特点,区分专业纸质图书和非专业纸质图书。在真实的借阅记录数据集上,实验验证提出方法的有效性。

下一步的研究包括:专业图书、非专业图书的不同推荐类数、册数对不同专业、不同性别的读者推荐影响,并将云计算模型的不确定性、模糊聚类应用于读者借阅偏好的随机性、盲目性中。

参考文献

[1]李克潮,黎晓.个性化图书推荐研究[j].图书馆学研究,2011,(10):65-69.

[2]景民昌,于迎辉.基于借阅时间评分的协同图书推荐模型与应用[j].图书情报工作,2012,56(3):117-120.

[3]罗喜军,王韬丞,杜小勇等.基于类别的推荐——一种解决协同推荐中冷启动问题的方法[j].计算机研究与发展,2007,44:290-295.

[4]李克潮,梁正友.基于多特征的个性化图书推荐算法[j].计算机工程,2012,38(11):34-37.

[5]丁雪.基于数据挖掘的图书智能推荐系统研究[j].情报理论与实践,2010,(5):107-110.

[6]燕飞,张铭,孙韬,等.基于网络特征的用户图书借阅行为分析——以北京大学图书馆为例[j].情报学报,2011,30(8):875-882.

[7]p.c.vaz,d.m.de matos,b.martins,et al.improving an hybrid literary book recommendation system through author ranking[c].in proceedings of the 12th acm/ieee-cs joint conference on digital libraries,jcdl12,new york,ny,usa,2012:387-388.

[8]chong chen,liya zhang,huan qiao,et al.recom mendation based on book-loan logs[j].the outreach of digital libraries:a globalized resource network lecture notes in computer science,2012,7634:269-278.

[9]p.c.vaz,d.m.de matos,b.martins.stylometric relevance-feedback towards a hybrid book recom-mendation algorithm[c].in cikm books online,2012:13-16.

[10]chih-ming chen.an intelligent mobile location aware book recommendation system that enhances problem based learning in libraries[j].interactive learning environments,2011,(1):45-51.

[11]chin-ming chen,yu-chieh yang.an intelligent mobile location-aware book recommendation system with map-based guidance that enhances problem-based learning in libraries[j].advances in neural network research and applications lecture notes in electrical engineering,2010,67:853-860.

[12]z.huang,x.li,h.chen.link prediction approach to collaborative filtering[c].in proceeding of the 5th acm/ieee-cs joint conference on digital libraries,2005:141

-142.

[13]b cui,x chen.an online book recommendation system based on web service[c].fuzzy systems and knowledge discovery,2009,(7):520-524.

[14]唐小新,李高虎,唐秋鸿,等.高校图书馆个性化电子图书荐购系统的设计和实现[j].现代图书情报技术,2012,(3):83-88.

[15]j herlocker,j a konstan,j riedl.an empirical analysis of design choices in neighborhood based collabo-rativealgorithms[j].information retrieval,2002,retrieval,2002,5(4):287-309.

[16]dietmar jannach,markus zanker,alexander felfernig,et al.recommender systems:an introduction[m].new york:cambridge university,2011.

[17]马家伟.图书借阅统计剖析高校的读者需求——以沈阳药科大学图书馆为例[j].农业图书情报学刊,2012,24(4):119-121.

[18]张保华.数据挖掘技术的研究及在图书借阅系统的应用[d].南京:南京大学,2008.