时间:2023-06-01 08:51:09
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇搜索引擎研究,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
随着互联网技术和互联网应用系统的快速发展,各个领域的互联网应用系统都已经积累了海量的Web数据,包括产品数据、用户数据、评价数据、关联数据、状态数据等等。这些数据不仅内容极其丰富,而且很大程度上都开放给互联网用户,可以免费的访问、下载和处理。这就为进一步集成和开发这些Web数据的潜在价值,建立增值应用提供了重要基础。聚类搜索是近年来发展最为迅速的互联网数据集成和增值技术。聚类搜索是在垂直搜索基础上发展起来的新型搜索技术。垂直搜索是主要针对行业的专业搜索,侧重于某一行业领域,其目的是使用户能够更加方便地找出所需的专业信息。而聚类搜索是为了进一步提高搜索的精度使其符合用户的搜索习惯和兴趣,在搜索引擎的搜索结果中进行聚类,把搜索出来的信息进行分类处理,将使信息资源更加清晰明了。
目前国内对聚类搜索引擎的综述主要见于文献[1]和文献[2],虽然这两篇文章对聚类搜索引擎进行了很好的综述和分析,对聚类搜索引擎的形成和发展过程进行了说明,并对主流聚类搜索系统进行了测评和分析,但是对于聚类系统的功能分析还不够详尽,对于聚类搜索引擎未来的发展没有给出明确的定位。
本文首先给出了典型聚类搜索引擎系统的基本工作流程,对聚类搜索引擎的发展历史和现状进行了概括式综述,然后从聚类对象、聚类功能和聚类算法三个角度对聚类搜索引擎进行研究,并全面分析了若干著名聚类搜索引擎。
本文结构:第1节介绍聚类搜索引擎的发展现状;第2节对聚类搜索引擎的功能进行分析;第3节对典型聚类搜索引擎进行综述;第4节描述聚类搜索引擎的发展趋势;第5节总结全文。
1聚类搜索引擎的研究现状
1.1聚类搜索引擎概念和工作过程
所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。
1.2国内外聚类搜索引擎的发展现状
搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。
近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。
有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。Sudipto Guha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。
国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。
2聚类搜索引擎的功能分析
2.1聚类对象分析
现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。
商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。
2.2聚类功能分析
聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。
智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。
去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。
多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入音乐名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。
覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。
2.3聚类算法分析
聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap(mnemomap.org)系统是使用树状结构的聚类算法,将聚类的结果以列表的形式展示出来。UJIKO系统(ujiko.com)是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统(quintura.com)是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。
3典型聚类搜索引擎
3.1 Vivisimo系统
Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。
目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。
3.2 Carrot2系统
Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。
目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。
4聚类搜索引擎发展趋势
文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。
4.1数据海量化
现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。
4.2链接社交化
在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的Deep Web(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。
4.3聚类综合化
聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。
5结束语
随着Web2.0的蓬勃发展,网页数量成级数增长,为了使互联网用户更加方便、快捷的得到需要的信息,聚类搜索代表着一种重要搜索引擎的发展方向。随着聚类搜索引擎的算法和数据源的逐步完善,聚类搜索引擎技术将得到迅猛发展和更为广泛的应用。(来源:电脑知识与技术 编选:)
参考文献:
[1]苏建华,张灿,聚类搜索引擎研究[J].新世纪图书馆,2009(6):72-75.
[2]苍宏宇,谭宗颖,聚类搜索引擎发展现状研究[J],图书情报工作,2009,53(2):125-127.
[3]沈贺丹,潘亚楠,关于搜索引擎的研究综述[J].计算机技术与发展,2006.16(4):147-152.
[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441.
[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.
[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.
[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.
[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].
[9]麻雪云,基于聚类的元搜索引擎设计和实现[D].北京:北京信息科技大学,2008.
[10]肖坤,面向用户兴趣的校园网聚类搜索引擎的研究与实现[D].长沙:国防科技大学,2010.
互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。
垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长,大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。
二、国内外现状与发展趋势
垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。
目前面向主题的网络搜索主要有两种技术:
一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。
二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。
三、技术关键
基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。
1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。
2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。
3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。
4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。
四、设计方案
1.技术路线。采用如下的研究开发路线:
(1)针对商业信息的分布特点以及用户的实际需求,在充分调研的基础上,详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果,在此基础上初步提出平台的整体架构。
(2)结合面向对象设计技术,对上一步设计出的平台进一步细化,从而明确对该项目所采用的具体设计模式。
(3)根据设计模式所面临的具体问题(例如,如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等)给出有效的解决方案。
(4)将以上的方案付诸实施,形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试,不断地完善和优化,最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。
2.创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率,在系统的开发中有如下创新点:
(1)系统总体为模块化结构,各个模块之间高内聚,低耦合。
(2)系统使用面向对象语言开发,能够有效地重用系统部分代码。
(3)在设计过程中,使用面向对象的思想做指导,建立系统类图,便于开发人员之间的交流。在编码过程中,不断重构代码,使得代码具有很高的运行效率,大大提高其重用性。
(4)系统集成时,使用XML文档作为模块间传递信息的工具。
关键词:搜索引擎 付费搜索 广告检索
中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2012)06-0099-02
1、引言
伴随着新一代搜索引擎公司如Google和百度的兴起,搜索引擎从后台服务走向前台服务,成为独立的互联网产业。它们的成功,一方面是由于搜索引擎技术的改进和突破,另一方面也是得益于崭新商业模式的发现和完善。这个崭新的搜索引擎利益模式就是付费搜索(Sponsored Search)。
但是,目前尚缺乏对付费搜索模式的归纳与总结又缺乏对付费搜索利与弊的深入分析,针对这一现状,本文借鉴国内和国外的部分研究成果,对付费搜索技术做一个归纳与总结,并指出付费搜索技术存在的问题和未来发展方向。
2、付费搜索历史及技术现状
21世纪以来,网络经济的不断发展,继“注意力经济”、“眼球经济”之后,另一种经济考虑用户需求、采用技术手段精准投放广告的新的经济形态——“意愿经济”已经出现。付费搜索的发明,是“意愿经济”成功的最好典范。
付费搜索的发明者是比尔·格罗斯[1](Bill Gross)。他所创建的Overture Services在1998年率先推出了付费搜索服务。内容网站推广者、广告商,为其所要推广的网页创建文字链接广告,选择相关关键词出价;在同一热门关键词上,不同广告商相互竞价。当用户搜索该关键词时,搜索引擎按竞价从高到底逐次展示推广网页的链接。
成立于1998年的Google[2],作为搜索引擎的后起之秀,并没有采用Overture的付费搜索服务,而是在其模式基础上自行研发加以改进,在2003年推出了自己的付费搜索服务系统AdWords。
在中国,创建于1999年底的搜索引擎公司百度,于2002年推出了自己的竞价排名服务,现称“百度推广经典版”,2009年底百度的付费搜索服务全面切换至“凤巢”系统,完成从百度推广经典版到百度推广专业版的迁移。“凤巢”系统通过对搜索用户的需求分析,试图分析出用户当前查询过程中的商业意图,与传统付费搜索技术不同的是,这种广告投放不是基于简单的关键词匹配,而是试图对用户的意图进行更加精准的识别。
3、付费搜索原理
付费搜索是由搜索引擎公司搭建和经营的网络推广平台。在这个平台上,网民用户、推广企业和搜索引擎公司三方形成了一个互动的商业生态环境。
推广企业为自己的创意选择关键词,并在每个关键词下参加竞价拍卖。广告投放后,企业最关心的就是推广效果,即投放的ROI(Return On Investment,投资回报)。因为是按点击计费,如果一个推广创意C通过关键词K一天被展现Nd次,得到Nc个点击,其中有Na个点击完成了交易。假设每次点击,推广商要付给搜索引擎的价钱是Pc;而每个成功交易,推广商能挣到Ra。那么,每天该推广商在创意—关键词(C,K)上的盈利Profita是
Profita=营收—成本=Na·Ra—Nc·Pc=Nc·(Ca·Ra—Pc)
这里Ca=Na/Nc,被称作“点击转化率”(conversion rate)。创意—关键词(C,K)对推广商若是有效果的投放,那么久必须:
(Ca·Ra—Pc)>0
这要求推广商选择与自己产品高度相关的关键词,否则即使用户点击进入链接网页,也会很快离开,没有交易发生,即Ra≈0。当然,如果点击价格过高,也会使投放得不偿失。对一个有效果的投放(C,K),推广商总是希望得到更多点击Nc来扩大盈利。增加Nc,可以通过提升竞价价格以提高该创意被展现机会和展现位次来达到,也可以通过改进创意的描述以吸引更多的相关点击来做到。
搜索引擎公司作为付费搜索的经营者,其目标是在推广商和网民的商业需求之间牵线搭桥,并从服务中盈利。如何有效的组织推广市场,从如何定价、如何选取排列和如何收费是要解决的主要问题。
4、广告检索和匹配算法
广告商在选择关键词竞价投放时,可以选择精确匹配(exact match)和宽泛匹配(broad match)等匹配条件。精确匹配时,当用户搜索该关键词时才有可能被展现。在宽泛匹配时,用户的查询词与该关键词相关时即有机会被展现。用户查询与查询内容的匹配有三个层面[10]:
(1)字符串匹配(string matching):精确匹配就是严格的字符串匹配。
(2)语义匹配(semantic matching):可以参加匹配的还有查询词的同义词、近义词以及关联词,这样搜索结果得到了扩充。
(3)意图匹配(intent matching):通过日志分析挖掘,了解一些常见查询词背后用户的查询意图,不仅有助于改善搜索引擎的相关性,也有利于提升付费搜索投放效益。
不管是那种匹配方式,推广的投放效果都可以由统计计算的点击率CTR来客观衡量。在基于Q * bid的排序机制下,统计得到的CTR可用于未来投放中推广的选取和排序;这种不断试验、不断改进的勘探-开发(Exploration & Exploitation)机制,使付费搜索可以不断优化投放效果。无论是对于新的推广,还是对于新的稀疏查询,它们的CTR准确预估都是很挑战性的技术问题。机器学习中的分类、回归等建模方法,都可以发挥关键作用。
5、付费搜索技术存在的问题
【关键词】搜索引擎;商标侵权;关键词;责任认定
一、搜索引擎商标侵权概述
1.搜索引擎商标侵权的界定
搜索引擎商标侵权是指将他人的部分或者全部商标设置为自己的Meta标签,或者通过竞价排名购买他人的商标作为自己的关键词从而引起互联网用户的混淆,并由此牟取不正当利益的行为。根据互联网调查数据表明,在互联网的热门服务中,搜索引擎以64.5%的使用率位居第三。由于网页的广告和销售收入与网页的访问量成正比,因此网页经营者们为了提高网页的点击率、增加收入,往往都会利用搜索引擎技术吸引客户,由此引发的搜索引擎商标侵权纠纷也就越来越多。研究搜索引擎商标侵权问题不仅可以更好地保护商标权人的利益,保护相关商标的商誉,打击侵害商标权的违法行为,还可以净化互联网的竞争环境,促进互联网更快更好地发展。
2.搜索引擎商标侵权类型分析
第一种,Meta标签引起的商标侵权。Meta标签可以用来描述网页的基本情况,还可以对关键词及网页等级进行设定,在网页设计中会将Meta标签嵌入网页源代码中。当互联网用户使用搜索引擎查找某一信息时,搜索引擎可以根据Meta标签快速的找到相关的信息网站。[1]一些网页设计者为了提高自己网页的点击率或者其他牟利的原因,利用一般的互联网用户看不到Meta标签这一特点,将他人的商标设置为自己的Meta标签,互联网用户使用搜索引擎查找该商标时,网页就会转到将Meta标签设置为该商标的网站,这便引起了商标侵权纠纷。
第二种,关键词检索引起的商标侵权。将Meta标签设置为他人商标存在不会被搜索引擎搜索到的风险并且容易被技术检测出来引起商标侵权纠纷,于是一种更为隐蔽的网络推广手段出现了,即为关键词检索。关键词检索的原理是公司向搜索引擎网站购买与公司产品或者服务相关的关键词,当用户搜索该关键词时,该公司的网站页面就会出现在搜索结果页面中较为突出的位置。而一些公司为了推广自己公司的产品或者服务向搜索引擎网站购买他人公司的关键词,当用户搜索该关键词时,很容易因为误认就进入了购买该关键词的公司网站,这就是关键词广告引起的商标侵权类型。[2]
第三种,搭载广告引起的商标侵权。搭载广告引起的商标侵权是指某公司并未购买某关键词,但是当用户搜索某一关键词时,该公司通过搭载广告的形式仍然出现在搜索结果的页面上。典型的广告搭载的例子就是“淘宝”和“易趣”这两个购物网站,互联网用户使用谷歌搜索“淘宝”时,搜索结果中会出现“想淘宝,上易趣”这个广告链接,而点击该链接就会进入易趣网站。其实搭载广告也是利用了关键词来进行商标侵权的,某些搜索引擎商利用搜索结果,将一些关键词提供给该关键词购买者的竞争对手作为搭载广告从而从中获利。
二、搜索引擎引起的商标侵权的认定
传统的商标侵权的认定可以适用《侵权责任法》上关于侵权行为的规定,那么搜索引擎引起的商标侵权应该如何认定呢?笔者认为搜索引擎引起的商标侵权是传统商标侵权在网络中的延伸,其同样可以适用《侵权责任法》,即从过错,违法行为,损害事实以及因果关系这四个方面来认定搜索引擎引起的商标侵权。[3]
1.过错
对于主观过错的认定同样要从搜索引擎服务提供商和作为链接的第三方网站这两个方面去分析。对于搜索引擎服务提供商,应适用过错推定原则。即如果其在提供竞价排名服务时没有尽到审查义务或者已知侵权情况发生而没有及时采取相应的补救措施就应当认定为其主观有过错。对于作为链接的第三方网站,如果其有将他人的部分或者全部商标设置为自己的Meta标签或者购买他人已注册的商标作为自己的关键词这种行为就应当认定为其主观有过错,除非网站经营者能够证明自己没有过错。适用过错推定原则一方面避免了受害方在网络环境下举证困难的不利因素,另一方面保证了网络交易的顺畅发展。[4]
2.违法行为
搜索引擎商标侵权主体不仅包括搜索引擎服务提供商,还包括作为链接的第三方网站。因此从这两个主体分别分析其行为有无违法性。首先看搜索引擎服务提供商违法行为的表现形式。搜索引擎服务提供商并不是商标的直接侵权者,他对商标侵权的责任在于在提供竞价排名服务时他对第三方网站提供的关键词没有尽到审查义务,致使商标专用权人受到了损害或者是商标专用权人已经告知其这种侵权行为,而搜索引擎服务提供商没有积极的采取补救措施。再来分析作为链接的第三方网站行为的违法性,如果他在自己的网页代码中将他人的 部分或者全部商标设为Meta标签,这种行为无疑是具有违法性的。如果该第三方网站只是参与了竞价排名服务,那么这种行为是否具有违法性还要看其购买的关键词是否是已注册的商标以及其是否具有不正当经竞争的目的等。
3.损害事实
损害事实,既包括对公共财产的损害,也包括对私人财产的损害,同时还包括对非财产性权利的损害,只要对他人人身或财产利益造成了受损的事实,均构成损害事实。[3]商标是一种无形资产,一个有着良好商誉的商标能给商标权人带来巨大的商业利益,商标的损害后果相较于其他损害事实来说是特殊的。结合《商标法》的立法宗旨,我们要认定搜索引擎引起的商标侵权的损害事实,其包括以下几个方面:
(1)是否侵害了商标专用权人的商业利益,是否使商标所享有的信誉降低以及是否侵害了生产经营者的利益;
(2)是否侵害了消费者的利益;
(3)是否破坏了网络交易秩序等。[5]
4.因果关系
侵权行为中的因果关系是指违法行为与损害结果之间的客观联系,即特定的损害事实是否是行为人的行为必然引起的结果。只有当二者间存在因果关系时,行为人才应承担相应的民事责任。因此,因果关系是侵权行为构成要件的必备环节。因果关系也可以分为直接的因果关系和间接的因果关系。作为链接的第三方网站将他人的部分或者全部商标设置为自己的Meta标签或者参与竞价排名服务购买他人的商标作为自己的关键词,这种侵害他人商标专用权的行为与损害事实有着直接的联系。而提供竞价排名服务的搜索引擎商帮助第三方网站侵害商标权人的利益,这种行为和损害事实有着间接地联系。
三、完善搜索引擎商标侵权责任的具体建议
1.明确搜索引擎商标侵权的责任承担主体
(1)搜索引擎服务商的审查和补救义务
要减少搜索引擎商标侵权的纠纷,搜索引擎服务商需要尽到一定的审查义务,同时在侵权情况发生后商标专用权人提出异议时也应当及时进行补救。首先,搜索引擎服务商应当对第三方网站申请购买的关键词进行审查,随着现在网络技术的发展,程序人才辈出,搜索引擎服务商应当设计一套程序。这套程序中应当包含所有已注册的商标,区分为驰名商标和普通的注册商标。对于驰名商标,与其有关的关键词一律属于商标权人,不得卖给其他任何第三方网站。而对于普通的注册商标,如果购买人能够提供合理的说明,则可以进行关键词购买。其次,搜索引擎服务商应当对购买关键词的第三方网站进行审查。如果作为链接的第三方网站将关键词作为自己的商标,使消费者产生了混淆,那么应当及时删除,否则将会侵害商标权人的利益。最后,一旦侵害情况发生,且商标权人已经及时将此情况告知搜索引擎服务商,搜索引擎服务商应当立即对链接的第三方网站进行删除或者屏蔽,否则就应当共同承担侵权责任。
(2)作为链接的第三方网站的责任
作为链接的第三方网站在合理使用关键词的情况下不构成商标侵权,但是我国对于合理使用并没有作出一个明确的界定,而搜索引擎中商标侵权的认定又比较的复杂,可以从以下两个方面对第三方网站是否属于商标侵权责任承担主体进行认定。
(1)作为链接的第三方网站主观上有没有恶意,有没有使用他人商标增加点击率的不良意图,会不会使互联网用户对第三方网站的商标和使用的关键词商标产生误认。由于这种善恶意都是主观状态,所以我们应该从以下几个方面去考察,第三方网站购买关键词是在该商标成为知名商标前还是之后;第三方网站是否必须使用该关键词来描述自己的网站;第三方网站使用该关键词是否使消费者产生了混淆,有没有对这种混淆采取避免措施等。
(2)作为链接的第三方网站使用该关键词只是为了描述自己的网站,而并非出于搭便车的心理。一些关键词虽然被作为商标,但是它并没有失去其本身的含义,第三方网站购买该关键词只是为了说明自己的服务或者产品,并没有将其作为商标使用使消费者产生混淆或者在自己的网页中采取了避免混淆的措施,在这种情况下作为链接的第三方网站就不需要承担侵权责任。
2.明确搜索引擎商标侵权的责任形式
从一些案件的判决结果可以看出,在搜索引擎商标侵权中是以共同侵权责任制度来解决搜索引擎服务商这一间接侵权行为。根据《中华人民共和国侵权责任法》第八条第二款及《民法通则》第130条的规定,认定搜索引擎服务商与作为链接的第三方网站对商标权人承担连带责任。在司法实践中,用共同侵权来解决搜索引擎商标侵权案件有一定的弊端。如果搜索引擎服务商与作为链接的第三方网站承担连带责任,由于我们很容易找到搜索引擎服务商,而作为链接的第三方网站经营者我们很难找到,所以商标权人往往会选择实施了间接侵权行为的搜索引擎服务商,这无疑是不公平的。在网络技术发达的今天,如果使搜索引擎服务商与作为链接的第三方网站承担连带责任,那么搜索引擎服务商的注意义务将大大提高,这不仅仅会造成不公平,更不利于互联网的发展。基于以上理由,应当是搜索引擎服务商和作为链接的第三方网站分别承担相应的民事责任,搜索引擎服务商承担其间接侵权的责任而第三方网站承担其直接侵权的责任。这样有主有次,一方面搜索引擎服务商因为会承担相应的间接侵权责任而尽到自己的审查义务,另一方面作为链接的第三方网站也会为自己的侵权行为买单,既体现公平,也能够加强商标的保护,促进互联网的发展。
3.搜索引擎商标侵权责任的承担
根据我国《侵权责任法》的相关规定,考虑到搜索引擎商标侵权主要是侵害了商标权人所拥有商标的商誉,所以搜索引擎商承担侵权责任的方式主要有停止侵害、赔礼道歉、消除影响及赔偿损失等四种方式。其中我国现行计算商标侵权的损害赔偿主要依据是权利人的损失、侵权人的获利以及法定的赔偿数额。搜索引擎引起的商标侵权也依然适用这三个标准,即作为链接的第三方网站的获利、商标权人的损失以及法定的赔偿数额。作为链接的第三方网站的获利可以根据其在侵权行为持续期间所获的全部销售收入减去成本之后,都作为侵权人的获利,而这里第三方网站的获利是由于消费者对其产品产生混淆得来的。[6]而商标权人的损失则是由于第三方网站的侵权使得商标权人的产品销售量减少从而产生的损失,这一部分损失应当由商标权人来举证。法定赔偿是指在人民法院无法查清受害人实际损失和侵权人营利数额时,人民法院按法律规定的赔偿数额确定的赔偿数额。[7]
参考文献
[1]张乃根,符望.全球电子商务的知识产权法[M].上海:上海交通大学出版社,2004:222.
[2]焦文铭.搜索引擎侵权的法律分析[J].江苏警官学院学报,2007(2):2-3.
[3]孙艳花.商标侵权认定研究[J].商业文化,2011(7):9-10.
[4]邓富国,曹新明.网上搜索引擎商标侵权探析[J].人民司法,2002(4):5-6.
基金项目:本文系2011年度辽宁省大连市科技计划项目“大连市知识产权保护能力建设的法律对策研究”(项目编号:2011D12ZC137);辽宁省社会科学规划基金项目重点项目(辽宁文化产业发展法律问题研究(项目编号:L12AFX001)支持。
作者简介:
关键词: 搜索引擎;网络爬虫;实现;设计;主题
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)17-0023-02
Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.
Key words: Search Engine; Web Crawler; Implementation; Design; Theme
1 概述
使用搜索引擎,人们可以方便快捷地在网上获取有用信息。随着大数据时代的到来,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。主题搜索引擎以提供分类精细、数据全面、更新实时的搜索服务为目标。网络爬虫是搜索引擎的基础模块,是搜索引擎的重要基础。
网络爬虫是一种能自动提取网页内容的程序,利用网页信息格式进行网页分析,也可以定期搜集某个或某些网站的内容,跟踪网站的发展历程。随着网络爬虫技术的快速进步,网络爬虫更加广泛地运用于网站结构分析、个性化信息获取以及用户兴趣挖掘等多种服务中。
2 主题搜索引擎简述
搜索引擎是一种用来在万维网上检索资源文件的计算机程序。搜索引擎根据用户输入的检索关键词推测出用户的查询意图,然后快速地返回相关的查询结果信息供用户使用。
大数据时代互联网数据爆炸性地增长,急切地需要一种快速、准确细致、全面深入且更新及时的信息检索方法。主题搜索引擎克服了传统搜索引擎的诸多困难,使信息检索变得更加精确细致,使搜索到的信息更加全面深入,同时使专题信息和学科信息的更新更加及时。
3 网络爬虫简述
网络爬虫从一个初始URL队列开始,从中获取一个URL,获取网页,从网页中提取所有的URL,并将新的URL添加到URL队列中。然后网络爬虫从队列中获得另一个URL,重复前面的过程,直到达到停止条件。这种爬取资源的方式存在着网络连接不稳定、网页特征多样化、URL不规范等一些问题。
4 网络爬虫分类
第一个网络爬虫是美国麻省理工学院的学生Matthew Grey于1993年写成,后来改进了爬虫程序并将其引入到搜索引擎中。随着搜索引擎技术的不断进步,爬虫程序也越来越复杂,后来产生了通用爬虫、限定爬虫和主题爬虫等几种不同类型的爬虫。
4.1通用爬虫
基本原理上文已分析,但爬取的范围过大,爬取顺序要求低,对爬取速度和存储空间要求较高。
4.2限定爬虫
限定爬虫是一种能爬取用户感兴趣的某一类网页的爬虫程序。但它不要求爬取所有的网页,只需爬取某些特定种类的网页即可。工作过程是:采用朴素贝叶斯方法用网页样本训练一个文本分类器,然后用这个文本分类器指导爬虫的偏好,从爬虫队列中选择出用户感兴趣的网页。
4.3 主题爬虫
主题爬虫先确定一个或多个主题,根据一定的分析算法过滤与主题无关的URL,保留与主题相关的URL并将其放入等待URLs队列中;然后使用某种搜索策略从等待队列中选择下一个要抓取的URL,并重复上述过程,直到达到某种停止条件。
首先主题爬虫需要判定当前抓取与设定的主题的相关性,其次主题爬虫采用按相似度大小抓取网页的策略来抓取网页。相比通用爬虫它极大地节约了硬件和网络资源,加快了爬取速度,还可以满足人们对特定领域的需求。
5 主题爬虫的爬取策略
主题爬虫以通用网络爬虫为基础,在此基础上进行优化和扩展,使其具备主题网络爬虫特有的功能,进而实现面向主题的网页信息提取。
主题爬虫尽可能搜集与主题相关的网页,减少下载无关网页的可能。主题爬虫与通用爬虫相比需要解决以下问题:主题的描述和定义、网页内容与主题相关性的判定、链接重要程度的判定、如何提高主题爬虫资源覆盖率。
面向主题的信息采集系统可分为4个部分,即主题集选取、Web信息提取、页面预处理、链接过滤。
5.1 主题集选取
主题网络爬虫中,为有效进行剪枝和过滤操作,需要对主题进行定义或描述,以此来确定采集的方向,主题集的好坏直接影响到了最终的采集效果。主题可以是几个关键词,还可以是自然语言。用户可以自己定制主题,对主题做进一步的描述。主题集的合理选择是主题爬虫的基础。
5.2 Web 信息提取
从采集起点开始,主题爬虫开爬取Web上的信息资源,通过各种Web协议自动爬取站点的有效信息。为了高效地获取信息,主题爬虫系统中大多都采用了多线程的方式来提取Web信息。
5.3 页面预处理
把主题爬虫抓取到的Web页面规范化,主要包括:页面语法分析,页面去噪等操作,提取网页中的有效信息,然后判定网页信息的主题相关性,过滤与主题无关的页面,从而提高主题爬虫的主题信息提取的准确性。
HTML网页内容可以从正文、标题、标记信息、链接信息等方面反映。因此,对网页信息的提取只需将这些特征信息提取出来。读取页面时,找到标记,将标记中间的内容中的所有标记去除,就得到了页面正文;标记中的内容就是网页的标题,它显示在标题栏中。
即使提取的URL通过了主题相关性判别,提取到的页面内容与设定的主题也可能有很大差距。所以,在页面提取之后应对页面信息进行与主题相关性判别,淘汰与主题无关页面。
5.4 链接过滤
要提高主题Web信息的提取速率和准确性,系统需对采集到的UI进行URL和主题的关系的判定,叫做链接过滤,或链接预测。
链接过滤常用的算法是EPR算法。在链接关系的基础上加入针对链接的相关主题的权重,再引入链接网页之间的主题相关度权重,使产生的重要页面是针对某一主题的,这形成了EPR算法。
6 结束语
网络爬虫的发展为搜索引擎的成功奠定了坚实的基础,然而随着互联网技术的迅速发展,人们对搜索引擎的需求越来越大,信息检索服务也在向着个性化、精细化的方向发展,人们对网络爬虫的进一步设计优化提出了更高的要求。
主题爬虫核心问题是主题页面群的采集和无关页面的过滤问题。网络爬虫具有重复性,如何将页面动态变化的规律与先前的搜索统计结果相结合,提高爬取效率是一个值得研究的问题。目前网络爬虫采用的搜索策略都较固定,缺乏适应性,如何提升爬虫的自适应性有待进一步研究。
参考文献:
[1] 刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29,47.
[2] 盛亚如,魏振钢,刘蒙.基于主题网络爬虫的信息数据采集方法的研究与应用[J]. 电子技术与软件工程,2016(7):168-169.
[3] 梁萍.搜索引擎中网络爬虫及结果聚类的研究与实现[D].中国科学技术大学,2011.
[4] 于娟,刘强. 主题网络爬虫研究综述[J].计算机工程与科学,2015,02:231-237.
关键词:垂直搜索;web技术;信息化
中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 12-0000-01
Reservoir Agriculture Vertical Search Engine Construction Study
Yuan Feng
(Chongqing Three Gorges College,Chongqing404155,China)
Abstract:With the Internet and the rapid development of Web technology,Internet has become indispensable for information exchange huge information space.Faced with such a huge mass of information,people are looking for the information they need is often lost.How to quickly and accurately from the vast information resources to find the information they need has become a major problem plagued users.Vertical search engine web search is the research focus areas of most concern.And my school is located in the Three Gorges reservoir area,agriculture is the main professional school for China's"agriculture through science and technology"and the spirit of sustainable development,concepts and techniques from this paper describes two aspects of vertical search engine,workflow and key technologies and study the factors vertical search technology and rural issues together,to solve reservoir rural areas,farmers and agricultural information-poor,the concept behind the status quo,agricultural production information.
Keywords:Vertical search;Web technology;Information
一、库区农业发展瓶颈
(一)信息化对于农业的重要性
在农村经济运行中,信息把整个农村社会生产力的各个环节,各个方面紧密地衔接起来,把产经销各个部门有序地组织协调起来,是农村经济运行的重要中介和纽带,因此,许多农民也体会到信息致富的重要性,对信息的要求更加迫切。
(二)库区农业信息化发展现状
重庆三峡库区的农业信息化发展在近年来虽然有了较大进步,但是相比农业高速发展对于高新信息的需要,还有较大差距,特别在乡镇,农业信息人员不能有效利用计算机网络获取和信息,计算机的应用还更多地停留在打字上。造成农民和企业的信息需求不能及时上报和外发,网上的政策、技术、市场信息难以传递给农户。从而在乡镇级失去了信息的“桥梁”作用,影响信息的共享和应用。
二、垂直搜索引擎介绍
(一)什么是垂直搜索
所谓垂直搜索,是针对某一特定领域,某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。
(二)垂直搜索引擎的工作流程和主要技术
垂直搜索引擎主要分为3个功能模块(图1),网页抓取模块(Web Spider)是垂直搜索引擎的第一步,该模块从互联网海量的信息里抓取与搜索引擎的主题相关的网页,例如,设计一个摩托车行业的垂直搜索引擎,就可以到摩托车门户网站进行抓取。这一模块还包含对网页进行预处理,去除掉一些不符合主题规范的网页,然后进行网页净化,使之符合抽取的规范。
第二步是信息抽取和索引模块,该模块的主要目的是生成倒排索引,并且存储到数据库中,便于查询模块中查全率和查准率的提高,该模块承前启后,是一个垂直搜索引擎中最重要的一环,最为关键的步骤就是对第一步得到的大量网页进行信息抽取,从大量结构化和非结构化的数据中提取信息。然后对提取的信息进行中文分词,建立倒排索引,生成索引文件,存储到数据库中。
第三步就是设计查询页面和查询的算法,使用户可以按照第二步得到的索引文件进行查询,该步的关键在于如何设计优秀的查询算法,评定网页的“重要度”,努力提高查全率和查准率。
三、库区农业垂直搜索引擎的构建
(一)寻求技术支持,抓取相关关键网页
构建农业垂直搜索引擎需要大量农业核心技术相关网页,所以需要和一些农业门户网站联系,寻求他们的支持,将大量农业相关页面抓取到我们的搜索引擎的数据库中。
关键词:搜索引擎; 分类; 类目
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)18-4174-03
目录型搜索引擎采用网站登录收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源[1]。
目前,中文分类搜索引擎正蓬勃发展,犹如雨后春笋般相继出现,但各家搜索引擎的分类目录多为自编,这些自编的分类类录或多或少的存在着问题,不能完全的满足用户的检索需求[2]。所以笔者认为,建立统一的分类类录体系势在必行。该文在研究多数分类搜索引擎的基础上,归结出分类类录的大致类别,以期为相关研究机构和人员提供参考。
1 样本来源及研究方法
1.1样本来源
本文选取的样本来自于中国网站排名(.cn)。中国网站排名由中国互联网协会主办,主要提供网站综合排名TOP榜、网站流量趋势、统计工具、互联网市场信息等业务。
本文主要研究的是搜索引擎的分类,所以选取的搜索引擎须满足两个条件:一是目录型搜索引擎;二是综合性门户网站。结合这两点,在网站排名TOP100中,剔除掉全文搜索型引擎(如, 、.hk、等),以及专项式搜索引擎,例如购物网站(、等),银行网站(如.cn类),视频网站(如 、等),游戏网站(、等),交友网站(、等)等等,选取11个具有代表性的目录式综合搜索引擎进行研究,分别是:腾讯网()、新浪网(.cn)、凤凰网()、搜狐()、网易()、中华网()、新华网()、中国雅虎()、人民网(.cn)、北方网(.cn)、环球网()(表1)。
1.2研究方法
根据中国网站排名,选择具有代表性的11种目录式综合搜索引擎,收集并整理目录(表2),为方便统计,将同一意思的目录统一名称,例如,“购车”转换为“汽车”、“IT”转化为“科技”、“图库”转化为“图片”、“台湾”转化为“台海”、“尚品”转化为“时尚”、“地方站”简化为“地方”、“悬赏问答”简化为“问答”等等;统计搜索引擎类目,计算个类目的词频;按词频的高低进行排序;最后对词频表进行分析研究。
2 数据分析
将表2进行统计整理,总共获得105个不同类目,对每个类目出现次数进行统计,并将结果降序排列,得到类目的词频统计图(表3)。再将表3中的类目词频进行统计,获得高频词低频词统计表(表4)。
由表3可知,类目“汽车”、“新闻”、“科技”、“体育”、“娱乐”、“财经”、“房产”“旅游”是词频排名前三名的类目,说明它们是分类体系的主流类,目录型搜索引擎基本上都有着几大类;由表4可知,高词频(词频[≥]7)类目数很少,只占到总数的12.38%,相反,低频词(词频[≤]3)类目数却很多,占总数的76.19%,这显然是不合理的。
3 类目词频统计结果分析
3.1搜索引擎类目分类存在的问题
1) 分类类目数差距大
根据表1显示,搜狐的一级类目有34个,凤凰网和人民网的类目有32个,而环球网的类目只有19个,网易和北方网也只有21个,最大的差距有多大15个。类目数过多,分类过于庞杂、外延溢出,例如搜狐的“高考”属于“教育”的外延溢出,其完全可以并入“教育”类;类目数过少,知识覆盖不全,体系过于简单,查询者需要层层遍历,才能找到所需信息,浪费时间,例如想在环球网查找体育相关的信息,就必须同时查找“新闻”、“社会”、“评论”等类目,层层遍历,直到找到体育相关的信息。
2) 归类不科学,划分有失恰当
许多搜索引擎的分类体系未能严格的按照类目的内涵和外延进行科学地归属类目[3],其分类体系划分失误的种类主要有以下几种:①划分出来的类目相包容。例如,新浪网的“新浪大片”类目完全可以归纳在“视频”类目中,搜狐网的“彩票”类目可归纳在“财经”类目中;②划分过窄。例如,环球网的“历史”类目,内涵过窄,可以开辟一个“文化”大类,将“历史”这一类目作为它的二级类目;③划分过宽。例如,北方网的“文娱”类目,外延过于宽泛,可以拆分成“文化”和“娱乐”两个类目。
3)类目排列随意,界面欠友好
某些网站的界面友好层度比较低,广告太多,类目布局不合理,以及类目和二级类目混杂,版面混乱,给查询者的视觉效果不良[4];凤凰网的左侧右侧均插入了广告,并且随滚动条滚动,版面不够洁净,然让看了不舒服。例如,搜狐网的一级类目和二级类目混杂在一起,且字体大小一样,导致类目过多,看的人眼花。相反,新浪网设有网页导航,左侧边栏为一级目录,右侧为二级和三级目录,一目了然,分类清晰。
4)类名不规范,缺乏统一的类名体系
搜索引擎分类体系中普遍存在类名不统一的现象,各家搜索引擎同内涵和外延的类目却分别标示着不同的类目名称。例如,搜狐、人民网、北方网出现了“IT”这一类目,而腾讯、新浪、凤凰网、网易用的是“科技”这一类目;腾讯、新浪的“女性”类目和搜狐、网易、中华网的“女人”这一类目也是同属一个概念。
5)出现生僻类,类下缺乏注释
中文搜索引擎在其分类体系中采用了网页制作者自己自编的类目名称或是广大网名自发形成的网络用语、俗称、简称、英文缩写、惯称等自然语言[3],但有些类名缺乏规范化处理,类下有无注释,用户很难判别其内涵和外延,增加用户的额外负担。例如,搜狐的“白社会”、北方网的“18街”、中华网的“有料”、中国雅虎的“心香一脉”等,在没有注释的情况下,用户无从知道这些类目到底代表着什么样的内容[5]。
4 对搜索引擎类分类体系的思考
根据各类目出现的频次,将类目体系分为四类:主流类,次流类,商榷类,修改类(表5)。
4.1 主流类和次流类
主流类中的类目频次都是大于或等于7的,即它是由高频词组成的,这些类目是搜索引擎的主流类目,几乎所有的搜索引擎基本上都有这13个类目,在编制搜索引擎类目体系时,这13个类目可保留,直接使用;次流类是由类目频次小于7大于等于4的类目组成,这些类目是搜索引擎的基本类目,将近一半的搜索引擎都有这12个类目,对于这12个类目,可直接保留使用,也可稍作微调,例如,将“读书”归入“文化”类、“手机”纳入“数码”类、“微博”与“博客”合为一类,搜索引擎分类体系可根据自身情况借鉴使用。
4.2 商榷类
商榷类类目是由频次等于2和3的类目组成,这一类类目比较庞杂,界限不明确,需要调整后使用,分两种情况:
1)保留型,将其比较典型的类目,与其他类目外延交叉较低的类目保留下来,例如“亲子”、“女性”、“环保”、“问答”等;
2)调整型,将外延重叠交叉的类目进行调整,例如,“历史”纳入次流类的“文化”类,“动漫”归入“游戏”类,“彩票”纳入“财经”类,“女人”和“女性”合并为一类等。
4.3 修改类
修改类全部是由频次等于1的类目构成,对于这类类目,要进行大幅修改,才可以投入使用。修改方式有四种:
1)保留型,一些类目虽然不常使用,但也是属于一种新类别或是实用价值比较高的类目应予以保留,例如“男人”类目(因为有“女性”这一类目,为公平,应也有“男人”这一类目)导航(实用性很强);
2)包容型,一些类目的外延与其他类目交叉重叠了,所以不必要单独列出来,例如,“教育”已经包括“高考”这一类目,“新浪大片”包含在“视频”类目中,“华人佛教”属于“文化”范畴等等。
3)注释型,一些类目太过标新立异,仅看名字无法理解其内涵,不方便用户使用,因此,需要加以注释,例如,“白社会”、“节会”、“宽频”、“18街”、“有料”、“心香一脉”。
4)摒弃型,一些类目是完全不必要出现在一级类目中,需要直接舍弃掉,例如,“服饰”、“高尔夫”、“心理测试”等。
综上所述,一般性综合搜索引擎的一级类目应大致有:“新闻”、“财经”、“科技”、“体育”、“娱乐”、“教育”、“房产”、“汽车”、“旅游”、“论坛”、“视频”、“公益”、“健康”、“游戏”、“地方”、“博客”、“读书”、“邮箱”、“军事”、“文化”、“时尚”、“数码”、“图片”、“环保”、“女性”“问答”、“国际”、“男人”、“导航”这28个类目。在编制搜索引擎的类目体系时,考虑自身搜索引擎的特点、偏向,具体问题具体分析,借鉴使用。
参考文献:
[1] 罗德一.农业分类搜索引擎分类体系研究[D].南京:南京农业大学,2004:3.
[2] 刑志宇.分类搜索引擎探析[J].河南图书馆学刊,2006(10).
[3] 余义芳.中文搜索引擎分类体系存在的问题及对传统分类法的借鉴[J].图书与情报,2004(3).
关键词:支持向量机;行为日志;检索函数;Nutch;搜索引擎
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)21-30420-02
Study on the Use of Server Log Search Engine Optimization
LU Wen-chao
(Anhui Tongling Colored Copper Crown Jianan Corporation, Tongling 244000,China)
Abstract: The site is set up in the future, we must think of how to make their own web site and let more people know how to attract more people to visit it in order to give themselves the potential for more customers. There are many ways to promote, for instance, can do advertising or signs Lightbox television and paper media publicity, but the price of such a biased propaganda expensive, or you can, in some Renqihenwang the BBS, or by adding their own above other sites links, or simply people on the e-mail to promote their own, but this situation is not very effective. And a "chipping away" feeling, may be more suited to those individuals Home publicity. By contrast, registered search engine integrated with the approach that results are good, the scope broad and effective long time. This paper introduces the Support Vector Machine (SVM) Category theory, discusses how to improve the use of SVM algorithm from the user updated study of the log retrieval function to meet the needs of different groups of users, the final use Nutch Construction of a search engine to validate our methods .
Key words: Support vector machines; User behaviors log; Retrieval function; Nutch; Search engine
1 引言
随着因特网信息量的日益增长,网络用户对搜索引擎的功能、智能化程度和检索效果有了更高的要求,希望搜索引擎能够提供更为准确、可靠与符合其个性化需要的检索结果。检索函数的性能对一个成功的检索系统来讲是至关重要的。专业人士认为,目前的搜索引擎的检索函数还存在两大不足,一、没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性。二、搜索结果的单一化。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样显然不能满足访问者。搜索引擎技术的改进和优化,都直接反应到搜索结果的排序上。检索函数的任务是对数据库中保存的数据对象与用户查询之间的相关性进行度量。检索系统根据相关度的大小对数据库中的对象进行排序并返回给用户。相关度取决于用户的判断,是一个主观概念,不同用户做出的判断很难保证一致,即使是同一用户在不同时期、不同环境下做出的判断也不尽相同。传统的文档检索系统通常基于向量空间模型或者语言模型,检索函数是用启发式的方法直接定义的,而不是学习出来的[1]。本系统根据用户行为日志推导用户偏好,然后利用机器学习方法SVM算法定时学习更新检索函数。
2 日志分析
用户利用搜索引擎检索时,常常会返回大量的结果,浏览检索结果时,假如是自己需要的信息,用户就会点击该链接,仔细阅读,有时还会下载下来,若是不需要的信息,就会立即关闭网页,即用户的信息需求可以通过点击与否和访问时间来确定。网络日志中记录了用户的访问时间,同时也记录了用户访问的URL,对这些数据进行净化、用户识别和会话识别等处理,就能体会用户的弦外之音,获得用户偏好。本系统日志中记录了有关用户访问网站的时间和频率的信息,日志分析只要对这些信息进行统计分析,找到那些用户经常访问的而且花了较长时间去浏览的网页,实际上也就是那些得到了用户认可的感兴趣的网页,然后由搜索引擎通过一定的算法提高这些网页的权值,使他们在检索结果中的排名靠前,我们认为对于每个查询词,用户感兴趣网页的相关度大于排在其前且没被点击的网页[2]。本系统记录的日志信息如图1所示:
3 SVM算法原理
Svm是在现代统计学理论基础上发展的一种新的学习方法。 Svm针对线性情况进行分析,寻找最优分割超平面把不同类别样本分开。对于非线性情况通过使用映射函数将低维线性不可分的样本转化到高维特征空间使其线性可分。所谓最大间隔超平面就是不但能把两类正确分开,而且分类面距离样本的间隔最大的平面。设分类超平面的方程为x•w+b=0,设线性可分得训练样本集(xi,yi),i=1,2,...,n x∈RN ,y∈{-1,+1},满足条件: yi(w•xi +b)-1≥0,i= i=1,2,...,n,为了得到最大间隔分类超平面,需要求解下面的最优化问题:
这个最优化问题的拉格朗日对偶形式为:
解这个最优化问题便得到线性最大间隔分类函数,对于给定的未知样本x,只需计算分类函数的符号,就可以判断x所属的类别。
在线性不可分情况下,可以在条件中增加一个松弛项ξi≥0,将约束放宽为yi(w•xi+b)≥1-ξ, ξ≥0,i=1,……n, 此时目标函数变为 ,其中C为可调参数,表示对错误的惩罚程度,C越大惩罚越重。相应的对偶问题为:
对于非线性问题,引入核函数技术。对偶问题只涉及训练样本之间的内积运算,这种内积运算是可以用原空间中的函数实现的,根据泛函的有关理论,只要一种核函数K(xi•xj),满足Mercer条件,它就对应某一变换空间中的内积,如果核函数选取得适当,可将输入空间中的线性不可分问题转化为特征空间中的线性可分问题。
4 学习检索函数
本文采用基于机器学习的文档检索方法(Ranking SVM)学习针对每个查询词的检索函数。在这种方法中,文档被表示成度量其与查询词之间相关度的特征向量,然后从训练数据中学习一个定义在这些特征向量之上的检索函数(排位函数)。我们选用线性检索函数即为rel(di,q)=w•Φ(di,q),Φ(di,q)是文档特征向量,w是特征向量的权重,因此学习检索函数实际上是学习和优化w。
4.1 文档特征向量
在排位函数(即检索函数)学习问题中,文档被表示成与查询词依赖的特征向量,目标是从训练数据中学习出一个能够根据文档与查询的相关度对文档进行排位的函数。之所以称作查询依赖的特征向量,是因为特征向量描述了文档与查询间的相关度,而不是文档本身的属性。所以,每个查询依赖的特征向量对应于一个“查询-对象”数据对。除了特征向量,训练数据还包括关于“查询-文档”数据对的相关性判断信息。所谓相关性判断是指一个文档与查询间的相关度的陈述。相关性判断可以是绝对的(比如,对象A 是相关的,对象B 不相关,而对象C 居中)或者是相对的(比如,对象A 比对象B 更相关)。相对的相关性判断也被称为偏好性判断。对于每个查询词,我们认为用户感兴趣网页的相关度大于在返回的检索结果列表中排在其前且没有被点击的网页。若对于查询词q在检索得到的文档集合中,文档di的相关度高于dj记作:di>q dj ,相应的w•Φ(di,q)> w•Φ(dj,q)。Φ(di,q)是反映查询词和文档相关度的特征向量。文档向量化首先选取特征然后对其赋值,经分析我们的文档特征向量由排序特征和查询词/文档特征构成。排序特征从已存在的检索函数中得到,为对每一个查询词我们只考虑结果的前100条记录,定义28个排序特征(rank1,2…,10,15,…,100),若文档排在定义的排序特征之前则该特征被赋值为1否则为0。例如对于某查询词排在第三位的文档排序特征向量为(0,0,1,…,1),如果文档没有出现在前100条记录中,则其特征向量为零。我们可以根据排序特征得知原始搜索结果的排序情况,可以实现不同检索函数的混合排序。 查询词/文档特征表明查询词和文档间的关系,用查询词在某HTML标签的出现的次数(TITLE,H1,H2,…)表示。
4.2 Ranking SVM原理
近年来,SVM算法被广泛地用于检索函数学习问题并且表现出了卓越的性能。检索被当作分类问题来对待始于1976 年的Robertson 和Jones。他们提出了二元独立性检索模型来估计相关的概率。Joachims则在最大间隔原则下处理排位函数学习问题,提出了排位SVM 算法(Ranking SVM),此算法的目标并不是学习相关性这一概念,而是学习直接对事物进行排位。这类算法使用的训练数据是相对相关性判断信息,即按照相关性排序的有序样本对[4]。本系统就是借鉴此方法学习排位函数。当di >q dj 时, w•Φ(di,q)> w•Φ(dj,q),将查询文档对转换为特征向量作为SVM的输入,经学习训练后得到w得值。文档特征向量对应空间的一个点,可以用各点在超平面上的投影来排序这些文档。构造最优超平面的方法类似SVM分类,对于线性不可分情况引入松弛变量以增大间隔距离,约束条件变为w•Φ(di,q) ≥w•Φ(dj,q)+1-ξij,优化问题变为:
其中C 为分类间隔和训练错误之间的折中控制参数,这里c的取值为0.1。
5 实验结果
我们利用Nutch构建了自己的搜索引擎并加入了中文分词模块[5]。在实验中,本引擎的搜索范围为校园网()。用户输入查询词图书馆后显示如图2所示,经过搜集用户行为分析得到用户偏好,由Ranking SVM算法训练学习后得到新排位函数,新的排位函数生成后,用户再次输入“学生”检索结果如图3所示。
训练时,我们使用SVM线性核函数取c=0.1,设最小权重Wmin=0.02。试验结果表明算法能够准确得分析站点用户行为的共性,并自动学习更新原始的检索函数将经常访问页面排在前面,方便用户浏览能够满足站点用户的群体需求。但系统还存在着不足,合并相近查询词、用户兴趣聚类等问题还需要进一步研究[6]。
参考文献:
[1] 李晓明,闫宏飞,王继民.搜索引擎―原理、技术与系统[M].北京:科学出版社,2004.
[2] 葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1251-1253.
[3] 孟海涛,刘鹏.一种改进的SVM支持向量分类方法[J].现代电子技术,2007(1):150-152.
[4] 付岩.基于机器学习技术的生物信息检索研究[D].北京:中国科学院计算技术研究所,2007.
[5] 胡涛,路红英.基于 Nutch 的搜索引擎的研究[J].计算机时代,2007(1):57-59.
报道还显示,搜索引擎用户的收入水平高于全国网民的整体水平,具有较高的商业价值。在用户行为上,搜索用户在第一次搜索失败后平均会采用2种以上应对措施。95%以上搜索用户在搜索时都会有习惯使用的关键词类型。
搜索用户在第一次搜索失败后平均会采用2种以上应对措施
CNNIC研究表明,当用户在第一次搜索不能得到理想结果后,会做出不同的反应。当一次搜索得不到理想结果时,平均每个用户会有2.03个不同的应对措施。有60.5%的用户会在搜索不到理想结果后采用“更换关键词”的方法重新搜索,有46.6%的用户会用“增加或者减少关键词”的方法重新搜索;另外有40.0%的用户会选择更换搜索引擎,30.4%的用户会选择从结果中再次搜索,还有26.1%的用户表示放弃继续搜索。提高首次搜索结果的满意度是搜索厂商应该重点关注的问题。
搜索引擎用户的收入水平高于全国网民的整体水平,具有较高的商业价值
CNNIC报告显示,目前中国的搜索引擎用户中,1000元以下收入的用户约占40.8%,月收入在1001-2000元的用户所占比例为25.9%,月收入在2000元以上的用户占总体的33.3%。搜索引擎用户的收入水平高于全国网民整体的收入水平,拥有较高的消费支付能力,搜索引擎作为互联网的基础应用之一,具有较高的商业价值。
用户结构进一步优化
目前使用搜索引擎的用户中,最主要的为年轻群体,30岁以下占70.1%,不过与往年相比,30岁以上的搜索用户所占比重也在逐渐增大;从学历构成来看,学生用户占据31.7%,在非学生用户中,高中学历约占30.3%,其次是大专和大学本科学历,分别占比28.8%和25.1%。
从数据中可以看出,中高年龄段与高中学历的用户所占比例明显增加,这与近年来中国网民的剧增以及中高龄群体所占比例的不断上升有关,这一现象也说明搜索引擎用户中各种类型群体的结构比例正在进一步优化。
休闲娱乐为主要搜索目的关键词类型大多固定
休闲、娱乐成为网民使用搜索引擎的两大最主要目的,报告显示,网民对生活信息的搜索需求要略高于对专业工具的搜索需求。而在以休闲娱乐为目的的搜索中,音乐搜索的选择率最高,达32.6%,百度音乐、搜狗音乐等搜索引擎应用的火爆都证明了这一点;此外,在生活信息搜索中,主要以新闻信息的搜索为主;在专业工具的搜索中,专业资料的需求最高,选择率达31.3%。
从应用上看,搜索引擎用户中,95%以上的用户都能够自述进行搜索时首先输入的关键词类型,只有4.2%的人群不固定地输入关键词。其中输入“主要一个关键词”的搜索用户占比最高,达38.1%。据此,分析指出,搜索引擎用户使用关键词的特征关系到搜索引擎优化和营销战略的推广,所以,搜索用户关键词的使用习惯今后将会一直为搜索引擎商家所关注。
百度、谷歌继续领衔搜索引擎市场
近年来网络发展迅速,信息爆炸带来的知识需求也日益增长,搜索引擎也呈现百花齐放、百家争鸣的局面。在此背景下,如何应用搜索引擎获取准确有效的信息成为人们非常重视的研究问题 [1]。为此,我们在教师的指导下开展了面向高校学生的搜索引擎评价研究,希望结合教学改革项目,进行教学实践课题的研究。我们希望通过搜索引擎评价,筛选出面向高校学生的、更有效的信息收集方法,提高高校学生信息收集效率和效果。
1 搜索引擎评价
网络信息资源评价的指标一般分为网络信息资源内容、网络设计、可获得性 、成本等方面[2]。搜索引擎的评价受到许多因素的影响。国内外有许多学者研究了如何评价搜索引擎,提出了相应的评价指标体系。苏君华进行了搜索引擎评价的研究综述,从内容层次、技术层次、界面/交互层次、用户层次、服务层次以及环境层次的评价几方面梳理了搜索引擎评价研究[3]。马志杰进行了国外以及我国搜索引擎评价的研究综述,指出了国外搜索引擎评价的特点及趋势,分析了我国搜索引擎评价的指标、方法,指出了我国搜索引擎评价研究存在的问题以及主要发展策略[1] [4]。
2 搜索引擎分析
使用者对于搜索引擎的评价很多地依赖于一些专业网站的搜索引擎排名。根据数据专家网站统计分析平台提供的搜索引擎使用情况分析报告,表1列出2013年9月搜索引擎排名,表2列出2014年8月搜索引擎排名。占有率指使用某搜索引擎的独立访客数占总访客数的比例;使用率指某搜索引擎产生的页面浏览量占总页面浏览量的比例[8]。由表1、表2可以看到,对于不同的评价指标,搜索引擎的排名结果不全相同。
3 基于AHP的综合评价
根据以上的分析,我们认为搜索引擎评价不能简单地从一、二个指标进行,而应该进行综合评价。层次分析法是定性定量相结合的系统决策方法。我们考虑应用层次分析法进行搜索引擎的综合评价。在查阅、学习相关文献的基础上,我们认为搜索引擎应该从全面性、准确性、目的性、时间性、用户友好性等方面进行评价。在此基础上,我们确定了搜索引擎评价指标。我们考虑了搜索结果、可获得性、界面设计、功能几个大类为一级指标。这些一级指标又分为相应的二级指标。搜索结果的二级指标有全面性、准确性、时效性;可获得性的二级指标有使用复杂度、链接方便性、响应速度;界面设计的二级指标有美观性、布局合理性、交互性;功能的二级指标有丰富性、独特性。
层次分析法构造判断矩阵进行因素对比若同等重要,标度的量化值为1;若稍微重要,标度的量化值为3;若较为重要,标度的量化值为5;非常重要,标度的量化值为7。若介于两相邻判断的中间值,标度的量化值分别为2,4,6,8。我们应用了专家打分法确定搜索引擎评价指标的权重。一级指标可获得性与搜索结果比值0.1669,界面设计与搜索结果比值0.2490,功能与搜索结果比值0.2327,界面设计与可获得性比值1.6610,功能与可获得性比值1.8644,功能与界面设计比值1.3218。二级指标搜索结果类指标准确性与全面性比值2.4662,时效性与全面性比值2.2787,时效性与准确性比值0.3952;可获得性类指标链接方便性与使用复杂度比值1.5731,响应速度与使用复杂度比值1.9693,响应速度与链接方便性1.5874;界面设计类指标布局合理性与美观性比值1.6984,交互性与美观性比值2.4929,交互性与布局合理性比值1.6475;功能类指标独特性与丰富性比值0.8061。
各指标通过了一致性检验。在此基础上,我们进行了二级指标的权重计算,可以得出二级指标的权重:全面性为0.102267,准确性为0.325395,时效性为0.174129,使用复杂度为0.030989,链接方便性为0.045011,响应速度为0.065953,美观性为0.017442,布局合理性为0.028499,交互性为0.045167,丰富性为0.091441,独特性为0.073707。我们可以得到各指标的权重排序:(1)准确性指标,权重为0.325395;(2)时效性指标,权重为0.174129;(3)全面性指标,权重为0.102267;(4)丰富性指标,权重为0.091441;(5)独特性指标,权重为0.073707;(6)响应速度指标,权重为0.065953;(7)交互性指标,权重为0.045167;(8)链接方便性指标,权重为0.045011;(9)使用复杂度指标,权重为0.030989;(10)布局合理性指标,权重为0.028499;(11)美观性指标,权重为0.017442。
4 问卷调查
对于现在比较流行的几个搜索引擎:百度、好搜、搜狗、必应、谷歌等,我们进行了问卷调查。我们设计了调查问卷,在网上并且收集了高校学生的反馈信息。搜索引擎评价调查问卷题目有:(1)请评价下列搜索引擎的搜索结果是否全面(内容来源是否广);(2)请评价下列搜索引擎的搜索结果是否准确(与你想得到的内容是否相符);(3)请评价下列搜索引擎搜索结果的时效性(是否是较新的内容);(4)请评价下列搜索引擎界面的美观性;(5)请评价下列搜索引擎界面的结构设计(结构、布局是否合理);(6)请评价下列搜索引擎界面的交互性是否良好;(7)请评价下列搜索引擎是否简单易用(操作方便);(8)请评价下列搜索引擎的链接是否方便(链接是否容易获得);(9)请评价下列搜索引擎使用时的响应速度快慢;(10)请评价下列搜索引擎的功能是否丰富;(11)请评价下列搜索引擎的功能是否独特。
我们共回收调查问卷131份,有效问卷131份。高校学生对搜索引擎百度进行问卷调查评分的平均值对于指标全面性、准确性、时效性、使用复杂度、链接方便性、响应速度、美观性、布局合理性、交互性、丰富性、独特性为:5.58、5.23、5.5、6.11、5.96、5.94、5.47、5.66、5.66、5.96、5.26。高校学生对搜索引擎谷歌进行问卷调查评分的平均值对于上面的指标为:5.8、5.69、5.55、5.81、5.63、5.18、5.64、5.64、5.5、5.9、5.57。高校学生对搜索引擎必应进行问卷调查评分的平均值对于上面的指标为:4.44、4.69、4.86、5.05、5.06、5.02、5.11、5.03、5.02、5.08、4.87。高校学生对搜索引擎搜狗进行问卷调查评分的平均值对于上面的指标为:4.44、4.49、4.84、5.12、5.06、5.15、4.73、4.82、4.74、5.01、4.64。高校学生对搜索引擎雅虎进行问卷调查评分的平均值对于上面的指标为:4.37、4.42、4.69、4.84、4.89、4.76、4.76、4.85、4.82、4.89、4.73。高校学生对搜索引擎好搜进行问卷调查评分的平均值对于上面的指标为:4.11、4.32、4.5、4.83、4.69、4.86、4.48、4.64、4.66、4.85、4.55。高校学生对搜索引擎有道进行问卷调查评分的平均值对于上面的指标为:4.01、4.18、4.43、4.85、4.72、4.75、4.53、4.6、4.6、4.64、4.6。
我们根据层次分析法得到的指标权重以及高校学生问卷调查的结果,计算了百度、谷歌、必应、搜狗、雅虎、好搜、有道搜索引擎得分并进行了搜索引擎排名。搜索引擎谷歌排名第一,总分5.643732;搜索引擎百度排名第二,总分5.524589;搜索引擎必应排名第三,总分4.82446;搜索引擎搜狗排名第四,总分4.718028;搜索引擎雅虎排名第五,总分4.620574;搜索引擎好搜排名第六,总分4.490624;搜索引擎有道排名第七,总分4.398873。表3 问卷调查的结果
对于被调查的七大搜索引擎,谷歌的综合得分最高,排名第一。国内最大的搜索引擎百度排名次之,其布局合理性、交互性、使用复杂度、链接方便性、响应速度、丰富性指标得到最高的评价。而必应、搜狗、雅虎、好搜、有道分别排名3到7位,且综合得分与前两名差距较大。这些搜索引擎的各项指标得分都较低,还有待改善。
关键词 网络侵权 搜索引擎 深度链接
中图分类号:D923.4 文献标识码:A
一、基本概念阐析
版权是指民事主体依法对其文学、艺术、自然科学、社会科学、工程技术等领域内的作品所享有的专有权利。 网络作品泛指在计算机网络上出现的作品。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。百度和谷歌等是搜索引擎的代表。
链接技术是搜索引擎的关键。深度链接是指绕过被链接网站的首页直接链接到分页的链接方式,是它绕开了链接网站的主页和主页上的广告,直接接触到他人网站深层次的具体内容。因此,用户常会误认为自己依然位于设连者的网页,以为被链接内容本来就是该网站的一部分,尤其是在被链接的分页也没有明显的网站标识的情况下, 这就有可能会导致使用者对网站所有者的误判,容易引起侵权纠纷。
二、网络作品版权侵权纠纷的法律分析
(一)网络中介服务商的责任风险。
网络中介服务提供者指为互联网提供信息传播中介服务的机构或个人。网络中介服务者的侵权责任风险主要有两个来源:一是直接侵权责任,即为其本身的计算机系统或其他设施存储和传播的侵权信息承担侵权责任;二是间接侵权责任,即网络中介服务者为他人借助其提供系统、设施或者搜索工具的中介服务而实施的侵权行为承担侵权责任。对于搜索引擎技引起的版权侵权纠纷,显然更注重第二方面的问题。
(二)网络作品版权侵权纠纷的归责原则。
笔者认为,追究网络环境下的侵权责任应适用过错责任原则,即行为人有过错的追究侵权责任;没有过错的,行为人履行停止侵害的义务,不承担行政责任。对于过错之认定,也宜采用主观主义,即是否“明知”或“应知”。
深度链接服务的特点之一就是服务提供者不对搜索、链接的内容进行选择、编辑或加工,服务提供者没有能力做到对用户搜索到的内容进行合法性审查,对其注意义务的设定不宜过高。
(三)网络作品版权侵权纠纷的免责规则。
1、美国“避风港”规则。
在互联网发展初期,美国曾适用严格责任;但严格责任过度保护权利人个人利益,侵害了网民在互联网中的自由,不利于技术进步,便逐渐确立了过错责任原则。美国《数字千年版权法(DMCA)》增订第512条,提供ISP“避风港”的功效,即在符合一定条件下,ISP不必就其客户的侵害版权行为承担责任,以免阻碍网络科技的发展。概言之,网络服务提供者只要遵循了预先确定的程序和规则,就可以证明自己对侵权行为没有过错,就不必对此承担侵权责任。
2、“通知”与“反通知”规则。
通知是指版权人向网络服务提供商发出的其系统或服务器中包含版权侵权材料的书面文件。反通知是指网络用户在得知网络服务提供商的侵权通知,以及有关内容被删除或阻止访问后,向网络服务提供商发出的不侵权书面文件。
《互联网版权行政保护办法》第5条规定:“版权人发现互联网传播的内容侵犯其版权,向互联网信息服务提供者或者其委托的其他机构发出通知后,互联网信息服务提供者应当立即采取措施移除相关内容,并保留版权人的通知6个月。”第7条规定:“互联网信息服务提供者根据版权人的通知移除相关内容的,互联网内容提供者可以向互联网信息服务提供者和版权人一并发出说明被移除内容不侵犯版权的反通知。反通知发出后,互联网信息服务提供者即可恢复被移除的内容,且对该恢复行为不承担行政法律责任。”
三、依法强化我国网络作品版权保护的建议
(一)强化版权意识,加强网络法治教育。
首先要将网络法治教育纳入国家的全面普法计划中,让群众了解国家的网络立法,自觉遵守法律;其次是要将网络法治教育与计算机专业教育和培训接轨,让在校学生和从事IT行业的人员在学习计算机网络知识、掌握网络技术的同时,就能学习网络的法律常识,从一开始就牢固的树立网络法治观念。
(二)完善“通知与反通知”制度。
《信息网络传播权保护条例》中并未明确通知或者反通知后采取行动的具体时间期限,建议将《条例》第15条修改为:“网络服务提供商接到权利人的通知书后,应当在3天内删除涉嫌侵权的作品、表演、录音录像制品,或者断开与涉嫌侵权的作品、表演、录音录像制品的链接,并在删除上述涉嫌侵权内容3天内将通知书转送提供作品、表演、录音录像制品的服务对象;服务对象网络地址不明、无法转送的,应当在删除上述涉嫌侵权内容3天内将通知书的内容于信息网络上公告。”
(作者单位:武汉理工大学文法学院)
注释:
魏纪林.知识产权法学.湖北人民出版社,2008年10月第一版.
搜索引擎.百度百科http:///view/1154.htm.
1建立搜索引擎质量评价体系的意义
面对浩如烟海的网络信息,搜索引擎作为最流行的网络检索工具越来越受到大众重视。同时,用户也常常到无所适从的问题:当成千上万的搜索结果到来之时,却很难从中找到所需要的结果。根据searchengine watch对5个著名英文搜索引擎的统计,各大搜索引擎的搜索结果优良率均在40%以下。造成这种局面的原因很多,有技术难题:如人机交流实现方式问题,技术难题的解决需要计算机科学的不断进步来解决;也有搜索引擎的设计运行问题,这一问题的解决可以通过建立既反映用户要求,又符合现有技术能力的搜索引擎评价质量体系,指导用户使用和搜索引擎网站改进产品
1.1有利于公众更好的利用搜索引擎进行网络信息检索
尽管搜索引擎在网络检索中起着不可替代的作用,但受知识水平、信息渠道的限制,许多用户常常不能正确的选择和使用搜索引擎。面对多元化的网络信息,不同的搜索引擎都有各自的强项。搜索引擎评价体系可以建立用户与搜索引擎网站交流的桥梁,帮助和指导用户甄别和使用合适的搜索引擎。如搜索引擎评价体系通过建立专业搜索引擎推荐序列,指导用户利用某一专业搜索引擎检索该专业资料,会收到较好的效果。
1.2指导普通网站进行搜索引擎优化
据统计,大多数网站访问量的70%是通过搜索引擎获得的,所以网站在搜索引擎上“表现”如何,直接影响到了网站的推广程度。建立搜索引擎评价体系可以用来指导商业网站进行搜索引擎优化。例如搜索引擎质量评价体系可以促进搜索引擎对搜索关键词的标准化设置,指导普通网站根据企业建站的思路设置网站核心关键词,提高网站的搜索引擎排名。
1.3指导搜索引擎网站改进产品
搜索引擎评价体系可以通过反映用户的要求和专家的观点建立对搜索引擎的科学评价,指导搜索引擎的改进。目前搜索引擎网站的升级速度落后于通用软件,已经影响了用户对网络资源的使用。搜索引擎评价体系可以促进用户与搜索引擎供应商之间进行交流。普通用户对搜索引擎的认识往往是感性的,所提出的要求缺乏针对性和可操作性,往往得不到搜索引擎网站的足够重视。搜索引擎评价体系将用户的普遍要求翻译成专业的、量化的改进建议,将其反映到搜索引擎质量评价体系中,对搜索引擎的供应商施加较大的影响力,促使其在较短时间内进行产品升级。搜索引擎评价体系可以通过定期对搜索引擎网站进行受欢迎程度、技术、美学或总体评价和排名,以便引导用户的消费指向,促进搜索引擎的改进。
2对搜索引擎进行总体评价
搜索引擎是一种结合了多种学科的网络检索产对不同类型的搜索引擎网站按照相应标准进行评品,设立可操作性的评价体系有相当难度。笔者认价。为可以通过设置总体评价体系和单项评价指标来分别进行定性和定量评价。搜索引擎总体评价主要是针对那些难以从技术角度进行量化的方面,主要可以通过公众调查和搜索引擎产品之间的功能比较进行相应质量评价。
2.1用户舒适程度
搜索引擎要争取更多的客户,既要将网站外观做得漂亮,使用户在访问搜索引擎的过程中获得美的享受,又给用户操作带来方便。搜索引擎的用户舒适程度包括以下几个方面:搜索引擎网站界面的外观设计是否符合美学原则;用户操作是否方便,如帮助功能是否完备、是否有相应的功能说明。用户的舒适程度可以根据受用户欢迎程度来评估,可以通过统计点击率、网上投票或设计问卷调查等途径获得。由专家对统计结果进行调查分析,将评价结果通过各种媒体反馈给网络用户和搜索引擎网站,指导检索实践。
2.2专业程度
网络文件的格式、内容、网络传输协议相当复杂,不同的搜索引擎网站也应进行专业化分工以便提供优质、高效的服务。因此,搜索引擎专业程度是重要的评价方面。搜索引擎质量评价体系可以根据搜索引擎网站的不同定位,针对某一指标对其专业度进行评价。针对搜索对象的不同内容,搜索引擎网站应设立有针对性的数据库和索引。门户搜索引擎网站主要针对大众一般性需求,如新闻、娱乐资料。对检索内容比较专业的信息则使用专业搜索引擎,如搜索旅游方面内容,中国旅游网搜索引擎是国内比较好的旅游中文专业搜索引擎。搜索引擎评价体系可以针对PDF,WORD,RMVB,AVI等不同格式的文件分别设计搜索引擎检索功能,可以大大提高检索效果。如PDF格式被广泛应用于学术论文的电子化,专门针对此类格式的搜索引擎正在获得学术界青睐。此外,针对搜索对象的不同传输协议的搜索引擎也受到用户欢迎。如专门检索ftp文件的天网ftp文件检索系统拥有一批以学生为主的、忠诚度特别高的用户群。
2.3智能化程度
搜索引擎评价体系可以促进搜索引擎的智能化进程。搜索引擎结合人工智能技术可以使网络信息检索从基于关键词提高到基于知识或概念,通过采用数据挖掘技术、智能技术、基于人工智能的知识发现术,使网络检索服务具备智能化、人性化特征。评价搜索引擎的智能化程度,可以设立以下标准:(1)在保证检索精度的前提下,搜索引擎要对网页按重要性排序。这是因为用户往往没有足够的时间查阅所有的搜索果,优先显示重要的检索结果就十分必要。以Google的排序方式为例,当从网页B被链接到网页A时,Google就认为“网页A投了网页B一票”。网页的得票数越多,Google就认为其重要性越大。Google还分析为其投票的网页,不同网页所投出的票也具有不同的重要性。被“重要”网页投票的网页“重要性”会被适当放大;(2)跨语言检索。互联网打破了国界,跨语言检索越来越显得重要,成为搜索引擎评价体系中不可忽视的一环。
跨语言检索可以通过在主页上添加在线翻译功能,也可以将在线翻译功能放在后台运行;(3)网页快照技术。通过储存应急网页,以便用户在访问已经过时或不存在的网页。网页快照技术是Google最先使用,现在已经成为百度等各大搜索引擎网站所必备的功能。搜索引擎技术处在不断进步中,对其智能化程度的质量评价应该是一个开放的系统,随着其功能进步而增加具体评价项目,以某一著名搜索引擎为基准,对其他搜索引擎按相对比例打分。
3搜索引擎可量化的单项评价指标
可量化的指标是质量评价体系科学性的重要体现。因此,搜索引擎评价体系要大量采用可反映搜索引擎检索质量的量化评价指标,用于指导搜索引擎的建设和用户的使用。
3.1传统的搜索引擎质量评价指标
基于纸质文献的传统评价指标经过了数十年的发展,已经相当的成熟,其中的主要指标也可以用来评价搜索引擎的检索质量,但部分指标需要针对网络检索的特点作一定程度的修改和完善才能较好的反映网络环境下信息检索的特点。
3、1.1搜索引擎查全率搜索引擎查全率是指从
搜索引擎系统检出的与某检索课题相关的信息数量与搜索引擎系统中实际与该课题相关的信息总量之比率。但是在网络环境下,信息处于动态的变化过程中,搜索引擎查全率指标比较难测算。因此,可以通过搜索引擎相对查全率作为搜索引擎查全率的补充。搜索引擎相对查全率可操作性较强,但受人为不确定因素的影响较大。
3.1.2搜索引擎查准率
搜索引擎查准率是又一重要的质量评价指标,是指从搜索引擎检索系统检出的有关某课题的信息条数与搜索引擎输出的信息条数之比率。搜索引擎的查准率和查全率存在不兼容性,要提高搜索引擎查全率往往要放宽信息检索范围,而这会造成搜索引擎查准率的下降;同样,要提高查准率就要缩小搜索范围,但容易漏掉所需要的信息。由于网络环境信息极大丰富,用户在使用搜索引擎进行网络检索时,往往更强调查准率的提高。对于搜索引擎检索来说,真实查准率较难计算,这是由于许多检索课题的检索结果数量太大,相关性判断工作成本巨大,可操作性不强。因此定义一个针对网络环境下信息检索的搜索引擎相对查准率就显得十分必要。
3.1.3搜索引擎漏检率
搜索引擎检索漏检率是指当使用搜索引擎进行检索时,检索系统把被检索信息分成两部分,一部分是与检索要求相符合的信息,并被搜索引擎检索出来,用户依据自身要求将其分成相关信息和不相关信息;另一部分是未能与检索要求相符合的信息,根据判断将其分成相关信息和不相关信息。搜索引擎漏检率与查全率成反比,在实践中采用抽样方法进行统计。
3.1.4搜索引擎误检率
搜索引擎误检率是指当进行检索时,搜索引擎把所有信息分为两部分,一部分是与检索要求相匹配的信息,并被检索出来,用户根据自己的判断将其分成相关的信息(命中)a和不相关的信息(垃圾)b;另一部分是未能与检索要求相符合的信息,根据判断也可将其分为相关信息(遗漏)c和不相关信息(正确的拒绝)d。在搜索引擎检索实践中,将降低搜索引擎误检率主要是剔除垃圾信息,提高搜索引擎查准率。
3.2基于互联网的搜索引擎质量评价指标
3.2.1响应时间
搜索引擎响应时间有四个部分组成:用户发送检索请求到达搜索引擎服务器的时间;搜索引擎服务器处理用户请求的时间;网站做出的答复到达用户的时间;搜索引擎用户处理检索结果的时间。其中,用户发送请求和服务器返回答复的时间取决于网络传输速度,用户处理检索的时间取决于用户计算机的配置,搜索引擎网站服务器处理用户检索请求的时间取决于服务器的硬件配置和负载情况、软件的组成原理、编码方法。提高网站服务器的整体性能,开发高效率的检索软件,使用缓存技术是搜索引擎缩短反应时间的重要方法。由于检索技术的进步,检索响应时间已经大大缩短,在这方面提高的空间已经很小。尽管搜索同样数量的网页,google比百度快60%一80%,这已很难成为绝大多数用户做出选择的理由。
3.2.2数据库的内容规模
数据库是搜索引擎工作的基础,是搜索引擎评价的重要对象,其内容包括数据库的覆盖范围、索引组成和更新周期,数据库规模、类型、更新频率、分类体系和信息抓取方式等。英文搜索引擎在规模方面优势明显,如google的数据库规模约是sohu的600倍,但中文搜索引擎在数据库更新周期,分类方式、检索语言等方面的差距并不明显。