时间:2023-02-02 04:56:09
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇robots协议,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
【关键词】robots协议;爬虫协议;搜索引擎;法律性质;行业惯例
一、案例简况
2012年8月16日,360搜索上线并成为360网址导航的默认搜索,360搜索将百度多项业务纳入搜索范围供用户选择,如百度知道,百度音乐,百度地图等纳入自己的综合搜索。这一行为遭到百度的强烈抵制,随后百度通过技术手段,令这些搜索请求无法通过360直达结果页面,而是跳转至百度首页,让用户重新搜索。双方的争议随后进入司法程序,2012年10月16日,百度将奇虎360 诉诸北京市第一中级人民法院。
百度不允许360搜索直接访问百度的内容,其依据的是国外成型已久的所谓搜索行业规范――robots协议。百度认为,百度知道、百科、贴吧等内容是百度所有的内网内容,百度有权决定其内容是否要被360综合搜索抓取与展示,而360综合搜索无视百度在robots协议中未对其进行授权的事实,对百度知道、百度百科等内容进行强行抓取,违背行业规范,涉嫌侵犯著作权、不正当竞争。奇虎360则认为,“robots.txt仅仅是指导和提示搜索引擎蜘蛛程序,善意的提示性TXT文件,既不是法规或标准,也不是合约,因而不存在违反与不违反的问题”。百度既是搜索引擎,也是内容网站,百度百科和百度知道等内容的robots协议仅针对360综合搜索,其他引擎如谷歌搜索则可以顺利抓取,这是一种歧视性的行为,是假robots协议之名阻止360进入搜索市场,是不正当竞争。并且,百度百科和百度知道等都是公开的信息,是网民一点一滴贡献出来的,允许其它搜索引擎抓取就正说明不涉及隐私的内容,不符合robots协议的适用范围。
本文无意探讨上述双方谁是谁非,只是借助这个案例,告诉大家什么是robots协议,通过对robots协议的法律性质作出认定,从行业惯例的角度去分析robots协议的司法约束力。
二、robots协议的法律性质
robots协议也称爬虫协议、爬虫规则等,就搜索引擎抓取网站内容的范围作了约定,当一个网站不希望其全部或部分内容被搜索引擎收录时,可以通过建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,搜索引擎则通过一种爬虫蜘蛛程序去自动依据这个文件来决定抓取或不抓取该网页内容。robots.txt类似于游览景区的指示牌,为搜索引擎蜘蛛程序爬行于本网站的路径进行提示,同时标明了哪些是开放景区(允许抓取),哪些游客止步景区(不允许抓取)。通常鉴于网络安全与隐私的考虑,每个网站都会设置自己的robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。例如高校bbs类网站,如有不希望被搜索引擎收录的相关内容,最好设置robots.txt以指示搜索引擎的访问路径,从而限制其蜘蛛程序的访问权限,这就解释了为什么一些bbs的网站内容能被搜索引擎检索到,而另一些则不能。
Robots协议并非强制性法规,而是搜索引擎诞生后,互联网业界经过长期博弈,最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。是为了互联网的和谐发展而制定的一种行业规范,是行业内一个约定俗成的协议,其根本性的权力来源是团体成员的理性契约与集体认同。正如Robots协议创始人Martijn Koster所言,该协议并不是有权机关制定的,不具有强制执行力,任何人都没有义务一定要去遵守这个协议。
事实上,robots协议在20世纪93、94年出现后,几乎被所有的搜索引擎采用,包括最早的altavista、infoseek,后来的google、bing,以及中国的百度、搜狗、搜搜等公司也相继采用这一规则并严格遵循。Robots协议限制搜索引擎的抓取内容,保护网站数据和敏感信息、确保用户个人信息和隐私不被泄露,对“人肉搜索”这类侵犯用户隐私的行为树立了一道屏障,为互联网的和谐发展起着重要的作用,如果某一搜索引擎被禁止访问某一网站全部或者部分内容,该搜索引擎蜘蛛程序就要绕开robots.txt而随意抓取该网站的内容,无视robots.txt的存在,这必然会导致信息提供者保护私有财产的权利无法得到保护和用户的隐私无法得到保障。
此外,中国互联网协会于2012年11月1日在北京举行《互联网搜索引擎服务自律公约》(以下简称“公约”)签约仪式,百度、360等12家搜索引擎服务企业现场签署了该公约。该公约第7条规定,搜索引擎企业要“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”,对于违反公约内容的,相关网站应及时删除、断开连接。从上诉公约内容来看,可以看出网络搜索行业自身已认可robots协议具有国际通行的行业惯例与商业规则的地位。
那么,行业惯例在像我国这样的成文法国家是否可被用来作为司法裁判的依据?惯例成为具有法律拘束力的习惯法应该具备些什么条件?robots协议又是否符合惯例构成要件,得到更强有力的法律保障?以下将逐一分析。
在传统电脑时代,聚合型应用的典型代表实际上是搜索引擎服务。虽然版权界一直将搜索引擎视为所谓的网络信息定位工具,这并不妨碍搜索引擎及衍生服务在用户心目中实际上已经成为一种强大的内容聚合工具。传统的搜索引擎服务与第三方内容之间有相对清晰的界限。搜索引擎网站在搜索界面向用户提供指向第三方内容网页的搜索结果条目(简短的内容摘要和作品的URL地址信息等)。用户点击相关条目,通用的浏览器一般会跳转到第三方内容提供商的网页。搜索引擎服务商一般并不控制通用浏览器呈现第三方作品的方式;而内容提供商也能够合理预见,自己页面在该浏览器上的呈现方式不受搜索引擎服务商影响。在这一技术背景下,用户端“浏览器的跳转”相当于“渠道”向“内容”过渡的服务移交仪式,比较清楚地界定了两类服务商之间的界限。基于搜索链接的“浏览器的跳转”,对用户而言,已经相当地方便和快捷,对用户的心理感受有直接的影响。相关作品通过关键词搜索就能轻松找到,点击链接就能够即时获取。网络用户无需特别留意提供该内容的网站地址和名称。这一点点的变化就使得搜索引擎等信息定位工具的重要性更加凸显——网络用户的注意力的天平实际上不可避免地向搜索引擎服务商倾斜。
在很多用户看来,互联网的入口是搜索引擎,而不是一个个内容站点。尽管如此,现有的著作权法的立法者还是相信,将搜索引擎服务提供商定位为“渠道”,而不是“内容”提供商,能够在它和被链接网站(著作权人)之间维持一种利益上的平衡。那些自愿选择对公众开放的内容提供商也的确接受了这样的制度安排。搜索引擎服务商帮助被链接网站扩散作品,从而获得更多的公众注意力;被链接网页的地址和内容得以完整呈现,这保证被链接网站能够从网页浏览量的增加中获得相应利益。如果被链接网站不满意这一安排,则可以利用在网站Robots协议中排除搜索引擎的网络爬虫机器人。主流的搜索引擎服务商大致遵守这一习惯。在移动网络时代,毫不奇怪,“今日头条”、UC浏览器等移动终端应用也纷纷与电脑网络时代的搜索引擎服务商类比,强调自己是在提供一种渠道(或聚合平台)服务,而非内容提供商。
这样,它们就可以摆脱了著作权法上严厉的直接侵权责任的威胁。不过,从著作权法的角度看,移动网络环境下的各种应用所提供的搜索平台服务与传统的搜索引擎还是有较大的差别:首先,在移动网络下,包括搜索引擎服务在内的各种网络应用对于独立第三方浏览器的依赖不复存在。搜索引擎服务提供商使用个性化的浏览器,可以任意定义用户界面和功能菜单。电脑网络时代内容提供商对浏览器呈现作品方式的合理预期,在移动网络时代不复存在。内容提供商无法再预知各种手机应用的界面将如何呈现自己的内容,因而无法预知作品传播过程中自己的商业利益能否得到保障。其次,移动网络客户端运算能力与阅读界面的限制,导致“渠道”和“内容”的关系被重新定义。
如我们所知,手机或平板电脑的界面比较小,浏览器在呈现网页时不再像电脑界面那样充分地呈现一些次要的信息,比如网站标志、网页地址等。即便这些内容勉强以很小字体呈现,也难以引起用户注意。这反过来促使用户更依赖于聚合应用的渠道,而忽略了内容提供商的重要性。如果移动终端应用的设计者进一步滥用自己对于浏览界面的控制,会进一步强化用户对“渠道”的依赖。比如,最极端的做法是,不在浏览界面上呈现内容提供方的地址,不呈现页面上的特征性内容,等等。这样,内容提供商的角色被淡化,“渠道”服务提供商喧宾夺主,成为真正的控制者。
最后,公众获取信息的方式变革也导致内容提供商地位不可避免地衰落。传统的内容提供商能够提供的信息量有限,而聚合型网站却能在很短的时间内汇聚众多内容提供商的内容链接,大大改善了用户的虚拟的访问体验。比如,如果“今日头条”可以不加限制地链接所有内容网站,它给用户带来的体验就是“今日头条”几乎能够提供互联网所有的内容。
另外,搜索引擎服务商根据用户个人偏好推荐内容的网络技术和商业模式已经非常成熟。这使得大而全的网络内容聚合服务提供商也能够迎合每个受众的个性化需求。用户越多,服务商的声誉愈隆;而新增用户服务所需的边际成本几乎为零,因此此类聚合型平台呈现出很强烈的“自然垄断”趋势。市场上能够生存的“渠道”很快就具有了支配地位。分散的内容提供商与它进行版权交易谈判时,谈判能力必然被削弱。内容服务商要获得聚合型平台那样的控制力,必须收集海量的内容。这需要支付巨额的交易成本,对绝大多数内容提供商都是不可想象的。理解上述移动网络技术进步的大背景,对于我们理解聚合型网站所引发的版权问题,非常有帮助。移动网络的普及,导致那些被贴上“渠道”标签的聚合型网络应用削弱甚至取代了“内容”提供商的角色。相应地,“渠道”服务提供者从作品传播过程中所获得的利益也超过传统的“渠道”服务提供商(比如基础通讯服务、传统搜索引擎提供商等)。“渠道”和“内容”边界模糊之后,著作权法下强化“渠道”服务商的著作权侵权责任的压力就迅速增加。接下来,本文对移动网络环境下比较典型的“加框链接”和“网络转码”行为进行深入分析,揭示著作权法应对网络技术进步的合理措施。
二、名实不符的网络加框链接
所谓加框链接,是指“设链者将自己控制的面向用户的网页或客户端界面分割成若干区域,在其中部分区域利用链接技术直接呈现来自被链接网站的内容。用户在浏览被链接内容过程中,依然停留在设链者控制的页面或客户端界面上。这样,用户所获得的浏览体验与设链者自己直接提供相关内容时的体验大致相当……在具体案件中,设链者对于设链页面的技术干预程度不尽相同,这可能使得其链接行为实际上处于普通链接与加框链接之间的模糊地带。比如,设链者可能不完全屏蔽被链接网页内容,但是在被链接网页上设置显著的返回按钮引导用户返回设链者的搜索界面。”加框链接的争议在传统互联网络中就已经存在,但是在移动网络时代更加突出。如前所述,移动网络用户基于内容聚合型应用获取版权内容的习惯更加明显。聚合型应用即使不采用极端的加框链接技术,只要最低限度地维持浏览框的存在,并向用户提供方便地回到该应用的主界面的快捷键,就能够维持相当的用户粘性,并最大限度地切分作品传播所带来的利益。加框链接使得终端用户可以通过设链者提供的客户端直接访问第三方网络资源,而无需跳转到该第三方控制的网页界面。
依据现行著作权法和相关司法解释,最有可能限制加框链接的是所谓的“信息网络传播权”。不过,“信息网络传播权”侵权采用所谓的服务器标准。直接侵权人只有将版权作品上传到服务器上并对外提供,才侵害此项权利。“被链接作品的信息网络传输行为由被链接网站完成,而作品的呈现或播放由用户或被链接的站点完成。这两类行为都没有设链者的直接参与。沿着这一思路,著作权人无法追究加框链接的设链者的直接侵权责任。”在中国的司法实践中,法院可能通过两种变通的途径追究加框链接者的法律责任。其一,先推定设链者自行上传了版权内容,然后要求设链者举证。法院对反驳证据提出很高的要求,最终导致设链者无法该推定,从而被迫承担直接侵权人责任。其二,在著作权法之外,追究设链者所谓的不正当竞争责任。不过,这两种变通途径有很大的不确定性,著作权人或被链接网站未必总能够实现自己的目标。
在难以利用现有著作权法禁止加框链接的情况下,希望阻止加框链接的内容提供方,可能会采取技术上的反盗链措施阻止外部的加框链接,或者在网站的Robots协议中排除已知设链者的网络爬虫机器人的访问。反盗链措施并不一定符合著作权法上的“技术保护措施”的最低限度的要求,因而该保护措施本身可能无法得到著作权法的保护。这样,盗链与反盗链就可能演变成丛林规则主导的无聊游戏。在Robots协议中排除网络爬虫机器人,具有法律上的效果。尊重Robots协议可能被视为整个网络行业的习惯。如果法院愿意,很有可能将遵守Robots协议视为所谓的社会公德或商业道德,从而对当事人产生法律意义上的约束力。一旦设链者的网络爬虫被Robots协议排除,则事实上导致设链者不再能大规模获取内容提供方网站的作品信息,也就无法从事类似“今日头条”的实时的作品推荐阅读业务。不过,通过Robots协议排除的只是网络爬虫机器人,法律承认这一排除的效力并不等同于否定加框链接的合法性。
如果设链者采用人工浏览并设置链接方式,依然可以规避Robots协议的限制。上述分析表明,现有的著作权法选择忽略加框链接与普通链接的技术差异,导致著作权人并不能非常有效地阻止设链者利用加框链接从作品传播中获得实质性的利益。在移动网络的著作权人或用户看来,设链者利用加框链接在自己控制的客户端或页面展示来自第三方站点的版权作品,与设链者自己上传并对外提供作品,并无本质差别。这一结果明显不合理。立法者应当放弃严格的“服务器标准”,使得信息网络传播权侵权的控制范围在适当情况下延伸到加框链接。这样,著作权法才能避免陷入过度技术化的泥潭,能够及时适应技术的发展变化,重新恢复作品传播过程中相关主体之间的利益平衡关系。
三、跨越网络边界的转码行为
到目前为止,移动网络终端与传统电脑的信息处理能力还存在实质性的差异(尽管这一差异在迅速缩小);相应地,移动网络终端的操作系统、浏览器等应用与个人电脑有相当的差别。因此,很多面向电脑终端的网页无法在手机端的浏览器正常显示。于是,一些内容聚合服务的提供商利用所谓的网页转码服务来跨越两类网络终端之间的技术鸿沟,使得移动网络客户端用户也能够比较满意地浏览传统网站的网页。内容聚合型网站在提供转码服务时,除了弥补移动网络终端技术性能上的不足、改善用户体验外,更有商业模式上的考虑。在转码过程中,聚合型应用常常有选择地剔除原网站的附带信息,比如原网站特征信息、广告、补充内容等等。转码者对原网站内容的改动,必然会影响到原网站的利益。原网站既可能提出著作权侵权指控,也可能提出与著作权无关的不正当竞争指控。由于著作权人既可能是被转码的网站,也可能独立于该网站。因此,这两类指控经常是相互独立的。认识到这一点,对于理解后文的分析思路有重要意义。后文仅仅关注著作权法问题,对于反不正当竞争问题不再讨论。技术上,转码可以通过临时复制和永久复制(更准确地说,应该是较长时间的复制)两种方式实现。
所谓临时复制,即转码者根据移动网络客户端用户提交的访问请求,临时在服务器端复制被转码的网页文件并转码,然后将转码后的数据传输给用户。在用户获得有关数据实现浏览后,转码者服务器随即删除转码过程中临时保存的文件数据。所谓永久复制,是指在完成转码服务后,服务器端较长时间保留转码后的文件;其他用户有相同访问请求时,再次向该用户提交该转码后的文件。显然,转码者在服务器上保留转码后的文件,可以避免重复转码行为,节省服务器资源,提高网络传输效率。在著作权法下,分析转码行为是否合法,首先要看转码者是否从事了著作权法意义上的复制或信息网络传播行为,然后再看它是否有合理使用之类的侵权抗辩。
如前所述,转码者在提供服务过程中,不可避免地要复制(临时或永久)转码的内容并通过信息网络传输。因此,转码行为的确落入了著作权法限制的行为类别之中,有侵害著作权的可能性。接下来的问题是,此类复制和后续的网络传输行为是否构成著作权法意义上的合理使用。这一问题并没有一成不变的答案。
在移动网络与传统电脑网络壁垒森严时,两个网络实际上代表着界限分明的两个市场。移动网络的转码服务使得大量移动网络用户能够自由浏览版权作品,而这些用户原本并非著作权授权时计算在内的目标群体。换句话说,转码行为实际上人为地扩大了版权作品的受众范围,而著作权人并没有获得额外的市场利益。其中的道理就像,著作权人授权他人通过无线电视网络公开传播节目,而互联网服务商通过转码使得网络用户在电脑上也能同步收看该电视节目。因此,在移动网络发展的早期,转码服务可能大大超出著作权人的预期,对著作权人的市场利益有实质性的影响,不应被认定为合理使用。因此,并不奇怪,在盛大文学有限公司诉百度公司案中,一审法院指出:“百度公司以WAP搜索方式提供涉讼作品内容的行为使用户无需访问第三方网站即可完整获得内容,其已超出了提供搜索引擎服务的正常范围,不属于法律规定的免责情形……百度公司直接、完整地将涉讼作品放置在其服务器上,由用户以点击小说搜索方式向用户提供涉讼作品,该行为属于复制和上载作品的行为,并通过网络进行传播,构成直接侵权。不过,随着信息技术的飞速进步,移动网络客户端性能大幅提高,移动网络与传统网络之间的物理界限逐步缩小。这时候,用户通过移动网络终端访问传统电脑网络的障碍几乎消失,转码服务不再起到联通两个独立市场的巨大作用,更多地是改善客户端显示效果或用户体验。
移动网络与传统电脑网络的融合趋势,也导致著作权人产生统一的市场预期。在发放版权许可时,著作权人就预期到被许可对象将同时向无数的移动网络用户传输作品。这时候,如果转码服务只是起到帮助被许可人更有效传播作品的作用,而没有突出成为独立的传播者,则这一行为被视为合理使用的可能性还是存在的。不过,这里的前提依然是,转码服务依然应当谨慎保持被转码网站的完整性,不然转码者本身可能被视为独立的内容提供者,而无法获得合理使用抗辩的庇护。有些人可能会拿那些与转码行为十分接近的“服务器缓存”行为来类比移动网络转码行为。“服务器缓存”,是网络服务提供商为了提高网络访问速度,在自己的服务器上临时存储用户访问的网页的内容,在遇到后续相同的访问请求时,直接向用户提供缓存的页面。在符合严苛的限制条件的情况下,缓存行为被视为合理使用。这里的限制条件具体包括,“网络服务提供者为提供网络传输效率”而“自动存储”、“未改变自动存储的作品”、不要影响原网络服务提供者获得反馈信息、根据原网络服务提供者的服务变化及时做相应调整等。从著作权法的角度看,这些限制性条件与其说是为了保证缓存者不改变被缓存网页的内容,还不如说是为了避免缓存者成为独立的“内容”提供者。因为著作权法关心的是行为人是否复制或传输作品,至于是否影响被缓存者获取信息、是否改变诉争作品之外的网站信息等,与著作权法所控制的行为并无直接关联。转码服务与“服务器缓存”对于著作权人市场利益的影响有很大差别。“服务器缓存”只是在一定程度上改善了用户的访问体验(速度更快),但是并没有增加了网络受众的范围,因为相关受众在不存在缓存的情况下,原本就能够通过缓存者提供的基础网络服务获取相关作品。因此,“服务器缓存”在一定条件下被认定为合理使用,是可以理解的。
在移动网络与传统网络之间界限分明时,转码服务则实质性地增加了作品的受众范围,违背著作权人的预期。如前所述,在移动网络和传统网络逐步融合后,转码服务可能不再实质性改变受众范围,与服务器缓存对著作权人利益的影响程度更加接近了,因而有可能被认定为合理使用。国内学术界有意见认为,临时复制和永久复制所对应的两种转码方式的著作权法后果不同。前者是临时复制,不受著作权法约束;而后者则起到替代原内容提供商的作用,应当被禁止。认为著作权法不应将“临时复制”视为“复制”的意见,常常强调临时复制本身“时间短暂”、“没有独立的经济价值”、网络用户浏览过程中的临时复制合法等理由。其实,著作权法上的复制,时间长短并无一定标准;能够实现网络浏览的临时复制居然没有独立的经济价值,不合逻辑;用户浏览过程中的临时复制合法,并不妨碍临时复制被认定为著作权法上的复制。对前述反对将临时复制视为复制的意见的进一步反驳超出本文的范围。从转码服务实现商业目的的角度看,转码服务过程中的临时复制或永久复制的区分,只在技术层面有意义,在法律上没有意义。如我们所知,对于著作权人和终端用户而言,这两种转码服务的客观后果都是使得原本不能访问或不能以满意方式访问版权作品的用户得以访问或接触该作品。临时与永久复制,只是增加或减少转码者的服务器负担;对于著作权人或网络用户而言,转码者究竟是临时还是永久复制,很难查证,也漠不关心。因此,临时与永久复制的差别可以忽略不计。就像Areo案中美国最高法院法官在忽略被告通过“单个天线加网络”的传输与传统有线电视网路传输的技术差异时所说的那样,该技术差异对于用户而言并无意义,对于广播者也没有意义。很难理解这种对终端用户和广播者而言都无法感知的技术差异为什么在法律上却是关键的。回到本文关注的转码服务,如果永久复制的转码应当被禁止,那么临时复制的转码也不应例外。
四、结论
每个领域有BAT参与的时候,总会激起一片浪花,神马搜索的背后则依靠着阿里巴巴,看似“前程似锦”,而且几乎所有人都认为会对百度造成冲击,无论是搜狗搜索、360搜索还是神马搜索的推出,所有人都觉得会对百度造成冲击,如此之多的移动搜索平台,似乎移动搜索重新洗牌的“海市蜃楼”要出现了。
移动搜索重新“洗牌”真有这么容易吗?我们先看两组数据,根据艾瑞的《2013年中国搜索引擎市场研究报告》显示:
(1)手机搜索引擎渗透率方面,百度位居第一,过去半年在手机上使用百度搜索的手机网民占了95.2%;谷歌搜索、360搜索、搜狗搜索、SOSO(搜搜)渗透率在11%-16%之间。其它搜索引擎在手机端的渗透率都在5.2%及以下,与前面的品牌差距较大。由于在手机上同时使用两个以上搜索引擎的比例仅占三成左右,各搜索引擎被网民选为第二搜索引擎的比例都不大。所有品牌中,谷歌作为网民的第二选择率最高,为7.5%。
(2)网民之所以把某搜索网站列为首选手机搜索,主要包括习惯性、搜索体验、工具导流、品牌情感以及其它因素。其中,电脑端的品牌选择对手机端选择影响最大,有74.3%的手机网民回答了“电脑上的习惯延伸,懒得换”;其次为搜索体验,包括搜索匹配度高、操作体验较好、搜索速度快、安全性高、广告少等,选择比例在44%以上。
95.2%的渗透率、74.3%的习惯性、88.7%的市场首选率,这些数据可是要比PC端的搜索数据更具有强势性,应该叫压倒性的优势。
360搜索能迅速挤入到搜索引擎行列中,渠道优势为其导入了众多流量,所以,在搜搜被并入搜狗以后,QQ浏览器的默认搜索被变为搜狗,这部分渠道优势成为搜狗在移动端的倚仗,而360搜索在手机端亦可以依赖360手机浏览器的渠道。神马搜索自身依靠的就是UC浏览器,它的推出并不奇怪。
为何神马搜索破局不易呢?
(1)底层普及率困难。百度搜索就像一座大山阻挡在搜索领域,无论是PC端还是移动端,百度在搜索领域的根底,不是其他搜索能在短期内可以复制和追赶的。搜索引擎的底层用户普及率不像移动社交工具一样,可以迅速形成病毒式传播。
在移动搜索领域耕耘已有三四年的搜搜品牌,它的品牌并没有直接被搜狗“吸收”,而神马搜索要想在移动搜索形成用户量相当的普及率,需要相当长一部分时间。肯定有人说,脑残呀,时间嘛,慢慢来就是了。呵呵,要明白别人也是会成长的,现在包括BAT在内,都在移动端抢时间,时间成本没有任何公司和个人能在移动互联网领域消耗的起。
神马搜索玩“偷天换日”可不行哦,品牌度方面绝对会是未来移动搜索发展的瓶颈,神马搜索注定会是“短命鬼”。
(2)内容是硬伤。无论是PC端的搜索引擎,还是移动搜索,其首先要先对已有的网站内容进行索引,才能展现给用户。所有人都以为百度只有一个干干净净的搜索,它自身并不产生内容,实际上百度为了增加自身的内容核心,早就毛下了伏笔。
百度百科已有8058651个百科词条,百度贴吧共有8192539个兴趣贴吧,百度文库的数量则达到了101549304份(此数据截止到2014年4月30日15点33分),还有百度知道、百度图片等其他形式的内容。即使是360搜索,在上线后,也迅速开通百科、问答等平台,搜狗亦有自身的诸多内容体系,如新的搜狗百科、搜狗问答。
神马搜索自身并没有强大的内容体系,即使是到了移动端,内容依旧是核心,不可能有搜索引擎能脱离内容而独立存在。当然,移动搜索目前并没有robots协议,但是内容是仅次于搜索的核心存在。
俞永福说过在移动搜索业务上神马始终遵守ROBOTS协议,目前UC的百科、文库、知道、图片等内容还是用的百度的,如果以后百度限制UC使用,那这些“真空”的内容,神马搜索又从哪里获取呢?没有内容作为强大依托的神马搜索,呵呵,容易竹篮打水一场空吧?
(3)搜索体验的变革不易。是的,用户会关注搜索体验,神马搜索的推出对移动搜索变革了吗?据自媒体人郭静观察发现,从展现形式上来看,并没有形成大的变革。反观在移动搜索领域耕耘时间较长的百度、搜狗在移动搜索领域则钻研出了自己的一部分规则。
首先是搜索引擎会让用户选择地理位置,根据地理位置显示不同的搜索内容,地图被强势运用到搜索引擎中,另一方面是强大的技术支持,虽然神马搜索团队已默默钻研了四年之久,但是从根本上,百度、搜狗等以开始在移动搜索的技术上进行变革。
主要表现形式是,用户在移动端搜索到的内容,会被搜索引擎以适合移动端浏览的形式出现,而不是PC端的网站样式,非常适用于中小型企业类网站。这样既不会丢失PC端网站的内容,用户在移动端浏览也非常方便,站长甚至都不用制作自己的手机网站,搜索引擎替代网站管理者完成了这部分工作。
任何产品想要实现变革都不易,神马搜索想要“鲤鱼翻身”,难!
(4)移动搜索选择的多样性。UC偷偷把搜索页面换掉,把百度变成神马搜索,它的玩法和360基本是一个套路。即使是可以依靠渠道在移动端能抢走一部分市场份额,但是移动搜索可不只有浏览器的形式,而且国内的手机浏览器市场,并没有某一家能抢走超过一半的市场份额,其他浏览器也很多。用户可能通过APP搜索、应用内搜索等多种方式来选择搜索引擎,在用户没有被浏览器默认捆绑的情况下,新出的移动搜索品牌也很难被使用。
搜索机浏览器,浏览器即搜索,早期也许UC浏览器会有优势,但是随着手机百度的强势推出,手机百度用户规模突破5亿、DAU(日活跃用户数)超过5000万,仅仅是这方面,神马搜索优势就很小。
百度spider对常用的http返回码的处理逻辑:
1、404
404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
2、503
503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
3、403
403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
4、301
301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
百度对于某些常见情况的使用建议:
1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
2、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。
4、站点迁移,或域名更换时,请使用301返回码。
案例:
我曾经为一家电子商务网站提供SEO顾问服务,网站每日新增商品由商家,商品后便成为一个有效的商品,并会出现到网站平台的商品检索结果以及商品列表中,同时,平台运营方需要对商品进行审核,对于没有审核通过的商品则进行删除操作;于是,会出现一些情况:新增商品页面被百度爬虫抓取,但随之该页面被删除。
由于网站在百度的权重比较高,几乎每日新增商品页都会很快收录,因此,在这批新收录的商品页面中有一定比例的页面很快不存在了,即:一批刚被收录的页面又向百度Spider返回了404状态码,简单以蔽之,“让百度收了再让百度删”,我觉得百度可能会“很生气,后果很严重”。
为解决这个问题,我之前采取了如下方法:
既然将商家的商品包含两种状态:已审核和未审核,那么就为商品页面设计2种URL规则,如果商品未审核,则使用第1套URL规则,同时,利用robots协议限制百度Spider爬虫抓取这些页面;如果商品已审核,那么就与已有商品一样,使用第2套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面,不会由于商品审核不通过而单日内出现大量404页面。
是否可以利用403状态码来解决该问题?思路如下:
关键词:物流系统;移动机器人;自主控制
中图分类号:F253.9 文献标识码:A
Abstract: On the command of intelligent logistics, applying intelligent robots in modern logistics system is a hot spot of robot applications. To improve the logistics intelligence, robots in the system should be more autonomous. From navigation, communication and decentralized control, the relative technologies for autonomous control are analyzed, the features with logistics application are discussed, and the prospect of enhancing domestic logistics equipment with these technologies is proposed.
Key words: logistics system; mobile robot; autonomous control
0 引 言
智能C器人是一种新型的高科技技术,是涵盖运用了计算机技术、信息化技术、仿生学特征、传动感应技术等多领域学科而形成的新型技术,是当前科技研究的热点方向。2015年5月,我国出台了《中国制造2025》规划,规划中将智能制造列为我国当前的首要目标发展战略,要加快对智能制造的研究进度,使制造过程步入智能化[1]。在这一规划中,智能机器人制造是最具有代表性的领域,成为当前最重要的发展方向。尤其是近些年来我国国民经济发展迅速,人民需求不断提升,促进了仓储物流行业飞速发展,智能化设备在物流运输过程中的重要性日益突出,而智能机器人的出现,不仅降低了企业的生产成本[2],而且大大提高了物流企业的生产效率。
现有的物流系统机器人大多采用集中式的控制系统,自身的智能性和自主性不足,常用于结构化的相对静态的工作环境中,对于可变环境的适应能力不够,因此只能完成较为简单和固定的物流作业。因此需要将智能化移动机器人与物流系统相结合[3],依靠智能移动机器人的自主性控制实现物流系统的智能化作业。智能化的移动物流机器人能够通过传感器感知外界环境和自身状态,实现在有障碍物环境中面向目标的自主运动,从而完成一定作业功能。其本身能够认识工作环境和工作对象,能够根据指令和自身认识来独立地工作,能够利用操作机构和移动机构完成复杂的任务[4]。
本文将针对物流系统中智能移动机器人的自主性控制相关技术,如导航、定位、通信、分布式控制等方面的研究发展进行综述,并分析未来智能物流系统中智能机器人应用的关键问题。
1 物流智能机器人自主性导航技术
若要使移动物流机器人具有特定的智能,首先就需具有多种感知功能,进而进行复杂的逻辑推理、规划和决策,并在作业环境中自主行动。在这其中,导航和定位技术是智能移动机器人所要解决的核心技术。定位和导航功能是自主式移动机器人的一项重要功能,也就是通过这个最核心功能,机器人根据自身的感知系统确定自身的位置,从而根据任务做出正确的行为决策和路径选择。没有这种功能,移动机器人的任何自主运动都是盲目的。因此,物流移动机器人的多种导引方式相继出现。根据环境信息的完整程度、导航指示信号类型、导航地域等因素的不同,主要分为电磁导航、地面标识导航、惯性导航和激光扫描导航、视觉导航等。而这些导航技术中,移动机器人的同步定位和地图构建(SLAM)方法是该技术的核心难题。
目前SLAM问题的研究方法主要分为两类:一类是基于数学概率统计方法,如卡尔曼滤波、粒子滤波等,这是目前研究最广泛的方法,但这类方法大多依赖于对环境的假设,配以昂贵的高精度传感器如激光测距仪来实现。Dissanayake等人在2001年提出了解决SLAM问题的卡尔曼滤波技术[5],之后针对卡尔曼滤波算法的复杂性和计算量问题,Thrun、Koller和Walter等人提出了稀疏扩展信息滤波的方法[6]。这种方法基于卡尔曼滤波更新方程中信息和逆协方差矩阵的剪裁以及通过对结果矩阵稀疏特性的研究,可使计算的维数降低。极大期望算法是卡尔曼滤波算法的一种补充方法,可解决模糊、循环环境下的机器人地图构建问题。粒子滤波方法是通过一组根据机器人状态先验分布得到的采样数据或者粒子,来表示机器人的实际状态和置信水平,如Thrun、Fox等人提出的蒙特卡洛定位技术,以此为基础,后期很多研究人员提出了相关改进的SLAM算法,如FastSLAM、基于Rao-Blackwelized滤波的SLAM算法。
另一类是基于生物激励的地图构建和导航系统,即通过模拟动物脑神经活动来解决三维空间导航任务。这种基于生物神经激励的导航技术,可以在不采用高精度的传感器和复杂的概率算法的条件下解决SLAM问题,但实际应用性能还不足,但是对同时提升智能自主性和降低成本具有积极意义。诺贝尔奖获得者神经科学家奥基夫(John O' Keefe)和挪威神经科学家莫泽(Moser)夫妇在20世纪70年现了动物大脑内与定位系统相关的细胞――位置细胞(place cell)和网格细胞(grid cell),在此之后更多相关细胞被发现,如速度细胞、边界向量细胞等。这些神经细胞的活动特性为机器人的导航定位控制提供了一个新的思路。位置细胞的特性是,当动物处于环境中某些特定位置时,对应细胞的放电频率会显著增强,而每个位置细胞均可表征动物所处环境的某一部分,众多位置细胞的协同工作,就可在脑内形成一张表征周围空间环境的大脑内部认知地图。网格细胞为大脑提供了一个度量尺,当动物从一个位置出发后,可以不断整合线性距离和空间角度,从而定位自己的坐标,了解自己在环境中的位置。Arleo等人在2001年对动物大脑中发现的与定位和导航相关的位置细胞(Place Cells)和头方向细胞(Head-Direction Cells)进行建模,并将其用于移动机器人的目标导航[7]。Michael等人在2005年,基于Arleo的研究,结合位置细胞和头方向细胞的功能,假想了一种位姿细胞(Pose Cells)结构,并进行建模模拟老鼠的导航,提出了RatSLAM的算法。该算法结合视觉测程技术和模拟啮齿类动物大脑中神经细胞的吸引子神经网络模型,实现了机器人的同步定位和构图。
随着生物神经机理的研究更加深入,将生物的大脑功能进行建模,再结合神经网络的算法,使得机器人具有自我学习的能力。这将使物流机器人在定位和导航方面,具有更好的环境适应性和灵活性。
2 物流智能机器人自主网络通信技术
随着日益多变的生产格局和产品需求以及日益提高的人力成本,促使企业现有生产模式向高度自动化和高度柔性生产模式方向转化。如果没有一个灵活多变的物流自动化系统,即使独立生产单元的自动化程度再高,也不可能实现柔性生产系统。要实现物流系统的灵活性,除了提高物流系统中个体物流机器人的智能自主性以外,还需要让它们能够与周围的环境及其他机器人能相互感知和协作。2003年10月波兰举行的GeoSensor Network Workshop研讨会上,有关专家指出移动机器人和传感器网络结合,会获得价格低廉但性能卓越的混合系统,该系统会在网络维护、环境检测、救援与反恐等领域获得广泛应用。
将物流系统中的每辆输送车辆配置成一个无线传感网络的通信节点,使其成为一个车联无线通信网络中的独立节点[8]。这样输送车辆不仅可以利用无线传感器网络信息感知的功能及时进行运行状态信息的感知,而且可以通过获取邻近车辆的状态信息并将自身的状态信息告知邻近车辆,实现这种分布式系统的通信,如图1所示。
无线传感器网络(WSN)可以延伸物流系统覆盖范围内的智能移动机器人的感知空间,为其提供更大范围的传感信息,智能移动机器人作为具有高度智能和执行能力的单元可以为与其相邻的WSN节点提供智能和执行能力的辅助服务[9]。移动机器人与WSN结合,两者经过相互协作和支持,使得形成的混合的物流系统具备了新的功能和价值。
无线传感器网络在物流系统中的应用,本质上就是将无线传感器网络通信技术与移动机器人相结合的问题。这种结合方式是将无线传感器网络节点配置在移动的物流设备上,无线传感器网络节点就像移动机器人一样具有移动性,且可自组网络,另外除了组网功能外,还具有采集周围信息的功能。系统与静态网络节点相比,工作具有更高的主动性。支持移动性是无线传感网络的一个主要优点,在无线传感网络中主要存在节点移动和事件移动。前者是指搭载无线通信功能的节点在网络中的自由移动,形成网络不断频繁自主的情况,后者是指在事件检测或在特殊的跟踪应用中,事件的诱发源或跟踪目标可能是移动的。这些应用的关键在于要有足够数量的传感器,能够完全覆盖观测目标。工作时,目标周围的传感器被激活进入高度活跃状态,对目标进行观测,工作结束后传感器恢复休眠状态。
采用此类自主网络的物流系统,物流智能机器人可以灵活地加入或退出当前的物流作业系统,且不会对整个物流作业产生影响,这有利于物流系统根据实际作业吞吐量需求,进行相应规模的扩展和缩减。
3 物流智能机器人分布式控制技术
物流系统中的每一个物流机器人随着传感与网络技术的发展,智能化程度得到提高,可视为一个智能化的个体。而整个物流系统则可视为多智能w的协作系统,即整个物流系统按照每台机器人分解成若干个智能体,各个智能体之间相互通讯、彼此协调共同完成大的复杂系统的控制作业任务[10],而不需要有明确的主控中心进行支配。此类多智能体系统不仅具备一般分布式系统所具有的资源共享、易于扩张、实时性好的特点,而且可以克服随着数目增加,对调度控制中心造成的管理和计算压力,使系统具有很强的鲁棒性稳定性和自组织能力。
针对上述多智能物流机器人系统的特点,必须设计一个良好的集群控制结构。在这个结构基础上,才能完成知识和感知信息的共享,获得协调一致的控制,进而发挥多移动机器人的优势,提高系统的工作效率[11-12]。该集群控制结构采用分布式结构,它不存在中心处理单元,物流机器人之间不存在主控与被控以及层次关系,每个物流机器人均能够通过通信等手段与其他物流机器人进行信息交流与磋商。分布式问题的求解是指在一些不同的处理节点中,通过知识库的分散和松散耦合的集合进行问题的协作解决方案。协作主要有四个重要部分:(1)是一个本地化的处理过程,不涉及集中控制;(2)是一种双向的信息交换;(3)每一个协商群体从自己的角度出发评估信息;(4)通过相互选择达成最终的协议。
例如采用集群控制方式来协调大量的物流机器人车辆的工作,需要解决的问题主要有:(1)任务分配:将物料搬运任务分配给适合的车辆;(2)任务规划:管理各个物料配送站和卸载点的工作车辆,使其处于平衡状态,避免出现过度饱和或工作量不足的情况。
假设一个场内物流的存取货区的集合为D=d ,d ,…,d ,其中d =x ,y ,θ ,而物料卸载点的集合为S =s ,s ,…,s ,s
=x ,y ,…,θ ,同时场内的AGV车辆集合为V=v ,v ,…,v ,v =v ,v ,…,v 。其中x,y,θ分别代表其位置坐标。物料搬运的任务为T =v ,d ,s ,及v ,d 和s 组合的建立,这其中要考虑物流机器人距离货源和卸载点距离的影响,以及物料搬运状态的平衡如排队等。这个问题的解决方式可以从自然界种群活动特征获得启发,即将群智能与物流系统控制应用结合。目前群智能的算法主要有蚁群算法、蜂群算法、细菌觅食算法、粒子群算法等[13]。将物流系统中的智能搬运机器人的运作与这些生物群体活动相结合,采用相应的改进算法,可以使得物流系统实现分布式的控制,减少整体控制的负荷,增强系统的灵活性。
4 小 结
现代物流系统未来的发展趋势是实现物流系统的分布式控制,强调系统中各作业设备的自主与协作,因此将智能机器人的自主性控制技术与物流系统应用相结合,是大势所趋。德国的国际管理咨询公司罗兰贝格在其的报告《物流业中的机器人与人》中分析了物流业大量引入机器人所带来的影响,并指未来智能机器人在物流业中的应用将有飞跃式的发展,预计会取代很多现有的工作岗位,因此发展物流系统智能机器人应用技术,将会显著提升物流系统研发的水平和物流设备的国际竞争力。
参考文献:
[1] 李健. 发展智能机器人产业,提升港口物流行业整体水平[J]. 经营管理者,2015(12):233.
[2] 林兆花,徐天亮. 机器人技术在物流业中的应用[J]. 物流技术,2012(13):42-45.
[3] 刘贵生. 基于“互联网+”的机器人在物流作业各环节应用分析[J]. 物流科技,2016(9):45-46,50.
[4] 深圳大族电机科技有限公司. 大族电机AGV机器人在仓储物流中的应用[J]. 智能机器人,2016(8):25-27.
[5] G. Dissanayake, et al. A computationally efficient solution to the simultaneous localisation and map building (SLAM) problem[C] // IEEE Intemational Conference on Robotics & Autom, 2000.
[6] M. Dissanayake, P. Newmann, S. Clark, et al. A Solution to the Simultaneous Localisation and Map Building Problem[J]. IEEE Trans. Robot. Autom., 2001,17(3):229-257.
[7] A. Arleo, F. Smeraldi, S. Hug, et al. Place Cells and Spatial Navigation based on 2D Feature Extraction, Path Integration, and Reinforcement Learning[J]. Adv. Neural Inf. Process. Syst., 2001,13(11):89-95.
[8] 周宇,景博,张拢等. 基于ZigBee无线传感器网络的嵌入式远程监测系统[J]. 仪表技术与传感器,2008(2):47-49,55.
[9] 司海飞,杨忠,王B. o线传感器网络研究现状与应用[J]. 机电工程,2011(1):16-20,37.
[10] 经建峰,楼佩煌. 基于智能体的分布式多AGV控制系统设计与实现[J]. 工业控制计算机,2013(9):37-38,40.
[11] 王辉,楼佩煌. 基于Multi-Agent的多AGV自主控制系统设计与实现[J]. 工业控制计算机,2011(10):29-31.
关键词:移动机器人;避障;模糊控制;超声波测距;优雅降级
中图分类号: TP24
文献标志码:A
Mobile robot obstacle avoidance based on improved fuzzy algorithm
PENG Yuqing, LI Mu*, ZHANG Yuanyuan
School of Computer Science and Engineering, Hebei University of Technology, Tianjin 300401, China
Abstract: In order to improve the performance of obstacle avoidance for mobile robots in continuous obstacle environment, a fuzzy algorithm of obstacle avoidance with speed feedback was proposed. Ultrasonic sensors were utilized to perceive the surroundings, and based on fuzzy control, the mobile robot adjusted its speed according to the distribution of obstacles. Then the graceful degradation was introduced combined with the improved fuzzy obstacle avoidance to enhance the robustness of the mobile robot. The experimental results show that the method can adjust the speed through interaction with the environment, control the robot in a collisionfree way and optimize the obstacle avoidance path. Simultaneously, the method shows good effectiveness.
英文关键词Key words:
mobile robot; obstacle avoidance; fuzzy control; ultrasonic ranging; graceful degradation
0引言
在利用移动机器人进行探测、侦察和导航时,由于计算的复杂性、控制的实时性、环境的不确定性等因素,尤其是在包含多个连续障碍的复杂环境中,自主避障已经成为当前移动机器人领域中的重要研究方向[1-2]。根据文献[3-12]的介绍,移动机器人的避障策略大体上可以分为两类:第一类是基于环境模型的避障策略,机器人能在完全已知的环境(障碍物的位置和形状预先给定)下避障,而当环境变化(障碍物位置变动)时避障效果较差,具体方法有栅格法[3]、可视图法[4]等;第二类是基于传感器信息的避障策略,具体方法有人工势场法[5-6]、神经网络法[7-8]、模糊逻辑法[9-12]等,其中模糊逻辑法引入驾驶员的经验以实现实时避障,算法所需存储空间小,并克服了势场法存在的局部最小现象,现已被广泛用于移动机器人避障。
本文在保持模糊控制原有特性的基础上了给出了一种具有速度反馈的模糊避障算法,特别适用于多障碍物连续出现的环境;同时把改进的模糊避障策略融入基于行为的控制技术中,使避障成为一个独立的行为单元。在运行状态下避障行为通过竞争机制获取机器人的主导权,控制机器人完成避障任务。通过仿真实验的反复调整,给出了相对合理的输入输出隶属度函数。与传统的模糊算法相比,把反馈速度作为模糊逻辑控制器的输入可以使移动机器人的决策控制更加准确。实验结果表明该方法具有很好的有效性,优化了移动机器人在未知环境下的避障路径。
1机器人硬件结构
分布式控制系统(distributed control system)是多智能体技术在移动机器人研究领域的重要应用[13]。在移动机器人硬件设计中引入分布式控制,不但提供了良好的控制方式和结构标准,降低了控制系统的复杂度,还使得移动机器人系统层次清晰,各个功能模块协调运转。
1.1RIRAII分布式控制系统
RIRAII移动机器人[14]采用分布式控制系统,将控制功能在下位机分散,每个下位机完成一项特定功能,各个下位机并行工作,大大提高了整个系统的处理速度和运算能力。RIRAII移动机器人的分布式控制系统如图1所示。
整个系统由主控模块、感知模块、无线通信模块和个人计算机(Personal Computer, PC)组成。其中主控模块选用高性能微处理器AT89S52,可实现对各传感器信息的实时获取;感知模块包括视觉传感器(SONY EVD31摄像机)、超声传感器(SensComp 6500系列)、碰撞传感器和防堵转传感器;无线通信模块负责发送图像或数据到移动机器人及PC,串口通信协议标准为RS232标准;PC客户端平台利用Windows系统的VC++6.0开发。RIRAII移动机器人外观如图2所示。
1.2超声测距系统
超声传感器[15]技术成熟、抗干扰能力强、成本低,是移动机器人避障的常用传感器,但单个超声传感器避障存在一些缺陷,如对障碍物的定位不精确、存在探测盲区、方向性不好产生镜面反射或障碍物幻影等。为了克服单个超声传感器避障存在的不稳定性因素,采用多路超声传感器来获取机器人周围障碍物的信息,超声传感器分前、后、左、右4组安装在RIRAII移动机器人四周,具置如图3所示。每组传感器在微处理器的控制下采用单循环工作模式或双循环工作模式,其目的是为了减少交调失真和超声波之间的相互干扰。
超声波测距的基本原理是不断检测超声波发射后遇到障碍物所反射的回波,通过时间渡越法来计算距离,其计算公式如下:
D=CT/2
(1)
其中:D为障碍物与超声波传感器的距离;T为超声波从发射到返回的时间间隔,即渡越时间;C为声波在介质中的传播速度。实验中,如果温度变化不大,可认为超声波的波速近似于声音在空气中的传播速度,即C=340m/s。因此只要测出渡越时间T,即可求得移动机器人与障碍物之间距离。
2模糊控制器的设计
移动机器人的运动环境十分复杂,很难建立精确的数学模型来预测障碍物的位置,而模糊控制是一种基于规则的控制,它直接采用语言型控制规则,在设计中不需要建立被控对象的精确模型,因此非常适合于移动机器人的自主避障。
2.1输入输出及模糊语言描述
传统的模糊避障算法只把距离信息作为模糊控制器的输入,可是仅依靠距离信息进行控制并不完全符合人类驾驶经验,驾驶员不可能只凭距离信息进行判断,势必要考虑当前的移动速度,因此在移动机器人避障过程中,把机器人当前移动速度作为反馈信息和超声传感器测得的距离信息一同作为模糊逻辑控制器的输入,把左右两轮的加速度作为模糊逻辑控制器的输出。具有速度反馈的模糊避障控制系统如图4所示。
选用机器人前方的6个超声传感器(F1~ F6)获取障碍物的距离信息,每次读入F1、F2两个传感器的距离信号,取其中较小的一个数据作为左侧距离的输入,并用LD表示左侧距离;同理,每次取F3、F4两个传感器中较小的数据作为前方距离的输入,并用FD表示前方距离;每次取F5、F6两个传感器中较小的数据作为右侧距离的输入,并用RD表示右侧距离。RIRAII移动机器人的车体结构为基本的履带式,由刚体平动原理可知,移动机器人在任意瞬时都是绕车体瞬心转动。因此,机器人可简化为以前后轮中心线为轴线的两轮移动平台。移动机器人运动模型如图5所示。
图5中:XOY为全局坐标系,xoy为车体坐标系,P为速度瞬心。因此,在任意时刻都可求出用于模糊控制器输入的反馈速度:
v(t)=[vl(t)+vr(t)]/2
(2)
式中vl(t)、vr(t)分别指左右两驱动轮的线速度。
障碍物距离FD、LD、RD的变化范围为[0m,3m],模糊语言集合为{近,远},相应的语言变量记作{NEAR, FAR};机器人移动速度V的变化范围为[0cm/s, 10cm/s],模糊语言集合为{慢,中,快},相应的语言变量记作{SLOW, MIDDLE, FAST};左右轮加速度al、 ar的变化范围为[-12cm/s2, 12cm/s2],模糊语言集合为{减速,慢减速,不变,慢加速,加速},相应的语言变量记作{D,SD,C,SA,A}。
2.2输入输出的隶属度函数
为了减少模糊控制器的计算负担,提高数据的处理速度,采用了分段线性隶属度函数。距离信号FD、LD、RD的隶属度函数如图6(a)所示;移动速度V的隶属度函数如图6(b)所示;左轮加速度al的隶属度函数如图6(c)所示;右轮加速度ar的隶属度函数如图6(d)所示。
2.3模糊控制规则
模糊控制规则的建立是模糊控制的核心问题[16]。根据人类驾驶的实际经验,当障碍物很远时,机器人将加速向目标前进;当接近障碍物时,机器人将减速行驶并根据障碍物的分布情况和目标方位作出合理决策,使自身在避障的同时尽量靠近目标。为了模糊避障规则库的建立,把未知环境下障碍物的分布情况归纳为8大类,如图7所示。
根据各模糊变量的模糊子集可归纳出23×2=24条模糊控制规则,由人类驾驶经验和未知环境下障碍物的分布情况,可以建立全部模糊控制规则,在模糊控制规则的制定上采用基于控制器行为特性的方式[17],把复杂的动作分解成若干个简单的动作依次执行。建立的模糊控制规则如表1所示。
所有的规则都可以用“IFTHEN”语句描述,其一般形式如下:
IF (LD is LDi and FD is FDj and RD is RDk and V is Vp)
THEN (al is alm and ar is arn)
(3)
其中:LDi、FDj、RDk、Vp、alm、arn分别是定义在论域LD、FD、RD、V、al和ar上的模糊集。这些模糊条件语句可归纳为控制规则R1~R24,每条规则的权重均为1,系统总的控制规则R可表示为R=∪24i=1Ri。在模糊推理时采用模糊控制领域较为成熟的Mamdani方法,应用Rc模糊蕴含关系运算和最大最小合成法。具体的,当输入为LD=x时,由距离信号的隶属度函数可得μNEAR(LD=x),μFAR(LD=x),同理可得FD=y,RD=z分别对集合{NEAR,FAR}的隶属度。当输入速度V=v时,由速度的隶属度函数可得μSLOW(V=v),μMIDDLE(V=v),μFAST(V=v),则表1中第一条规则R1的激励强度为:
α1=(μNEAR(LD=x)∧μNEAR(FD=y)∧μNEAR(FD=z)∧μSLOW(V=v))
同理可得激励强度α2~α24的值。因此,R1对左轮加速度al的输出隶属函数为μ1=α1∧μSA(al),R2对al的输出隶属函数为μ2=α2∧μC(al),…,R24对al的输出隶属函数为μ24=α24∧μC(al),所以,最终左轮加速度的输出隶属函数为μL=μ1∪μ2∪…∪μ24。同理可得右轮加速度ar的输出隶属函数μR。
2.4解模糊
通过模糊控制规则得到的结果是一个模糊量。但在实际模糊控制中,模糊量不能直接控制执行机构,需要将其转化为精确量,这个过程称为解模糊。常用的解模糊方法[16]有:面积重心法、加权平均法、取中位数法和平均最大隶属度法等,本文采用的是面积重心法。
其中:∫表示输出模糊子集所有元素的隶属度值在连续论域上的代数积分,μL、μR分别表示左、右轮加速度的隶属度函数。之后,将解模糊得到的精确量转化为控制信号输入给驱动电机,从而控制机器人的移动,并通过两驱动轮的速度差控制移动机器人的行走方向。
3优雅降级
计算机所创造的人工虚拟环境属于一种理想化结构,但现实环境往往是非结构化的,外加传感器本身存在着误报或漏报的情况,移动机器人的实际运行方式与我们所期望的有很大差距。当传感器子系统发生错误或者工作失效时,机器人的主控系统应降低水准继续工作,而不是完全瘫痪,因此移动机器人应当具备优雅降级[17]的能力。优雅降级能有效地避免机器人整体性能恶化,保证机器人在控制命令变质或重要信息失效的情况下,仍能够顺利完成既定任务。这里只介绍移动机器人避障过程中的优雅降级,其流程如图8所示。
具体的优雅降级策略如下:
1)理想情况下,移动机器人总能依靠超声传感器检测到未知环境下的障碍物,从而进入前述的模糊避障行为。
2)超声传感器在障碍物表面平滑的情况下很容易发生漏报错误,导致模糊避障行为无法触发,机器人将继续前进同障碍物发生碰撞,碰撞检测传感器将会受到挤压而使机器人触发下一级别的逃离行为。
3)假设碰撞检测传感器存在盲点,机器人无法检测到碰撞,仍全力推动物体,这时驱动电机的电流快速上升并超过设定阈值,堵转检测传感器可以检测到这种情况,并推断机器人被某个物体阻塞,系统同样可以利用这种信号触发逃离行为,逃离行为控制机器人后退一段距离并原地旋转固定角度。
4)进一步假设机器人运行环境非常光滑,履带在被阻塞的情况下仍能原地旋转。由于此时车轮负载小,电机电流无法达到堵转检测传感器的设定阈值,逃离行为无法触发。此时可以利用视觉传感器进行检测,根据一段时间内拍摄到的场景是否发生变化来判断机器人是否运动,如果机器人处于无运动状态,将会触发最高级别的防静止行为,防静止行为控制机器人随机地旋转和后退。
综上所述,在逃离行为或防静止行为的控制下,移动机器人的性能会有所下降,但优雅降级为机器人提供了更强的容错率,即使在性能下降的情况下,如果给定足够的时间,机器人也能够完成自己的避障任务而不至于系统瘫痪。
4仿真实验
为了验证本文算法的有效性,使用机器人仿真平台MobotSim进行测试。仿真参数为:机器人移动空间为20m×20m的矩形,其中每1m的间距用点网格作为参考;移动机器人直径0.5m,6个超声传感器相互间隔30°安装在机器人前方,每个超声传感器的声束角为15°。起点和目标点在图形中已经标出,其他未说明的形状为障碍物,且设置各障碍物间距均大于移动机器人直径,以确保机器人可顺利穿越两障碍物。
由于凹形障碍物环境是研究局部最小问题的典型环境,故在此环境下完成对比实验,效果如图9所示。图9(a)为采用人工势场法的避障效果,图9(b)为本文方法的避障效果。从图9中可以看出,本文算法有效地克服了人工势场法中局部最小问题,能控制移动机器人成功逃脱陷阱区域,最终到达目标点。
当目标点处于凹形区域内部时,进一步对移动机器人避障性能进行对比,效果如图10所示。图10(a)采用文献[18]的避障方法,由于控制规则过少,移动机器人运动盲目,很容易陷入死循环;图10(b)采用文献[19]的避障方法,移动机器人虽具备沿墙走行为,但由于不能合理控制自身速度,无法减速进入凹形区或始终执行沿墙走过程;图10(c)采用本文方法,移动机器人在发现单侧障碍物后,根据前述模糊规则切换为沿墙走行为,在到达凹型口时适当调整速度,可顺利进入凹形区域并到达目标点。
移动机器人在连续障碍物环境下的对比实验如图11所示,其中蓝线为传统的模糊算法,红线为本文所述的具有速度反馈的模糊算法。
从图11中可以看出,在两种算法的控制下,移动机器人在E点之前的避障路径几乎没有区别,但随着机器人速度逐渐提升,在几个障碍物比较接近、机器人需要连续避障的情况下,传统的模糊算法没有考虑机器人当前移动速度,若速度过快,机器人将直接绕开整个障碍。而具有速度反馈的模糊算法实时对机器人的速度进行调整,遇到连续的障碍物也可减速通过,避障路径和到达目标点的耗时均优于传统模糊算法。避障衡量指标如表2所示。
最后测试了本文算法在复杂环境下的避障性能,效果如图12所示。由于移动机器人在复杂环境下极易出现迂回情况,因此在A、B两点分别设置红外信标,移动机器人上安装红外接收器,这样机器人在完成阶段性路径规划后可直接向信标前进,大大缩短了用时。从图中可以看出,在无障碍区域,机器人路径光滑且移动速度快;当进入障碍物区域,机器人会针对障碍物方位调整自身速度,从而更有效躲避障碍;在通过窄道区域时,机器人几乎不会产生摆动现象,优于传统的人工势场法。仿真结果表明,机器人动作连续、稳定,能有效躲避环境中的障碍且所产生的运动路径平滑,未出现过多迂回,说明具有速度反馈的模糊算法可以很好地适应复杂环境。
5结语
针对非结构化的工作环境,本文提出了一种具有速度反馈的多超声传感器的模糊避障算法,有效地克服了传统超声避障算法中存在的对机器人控制能力弱、定位精度敏感等问题。在机器人的硬件设计上采用了分布式控制的思想,降低了控制系统的复杂程度,提供了良好的拓展性;在机器人的软件设计上采用了基于行为的编程思想,提供了优雅降级的能力,使机器人在实际环境中拥有更强的适应性。实验结果表明该方法保持了模糊算法计算量小的特点,能够适应复杂的环境,同时具有合理的容错机制和更强的鲁棒性。随着传感器技术的发展,多传感器信息融合将会进一步优化机器人的避障性能,如果把模糊算法和遗传算法、神经网络等理论有效结合,也有助于达到更好的避障效果。
参考文献:
[1]
PETRIC T, LAJPAH L. Smooth continuous transition between tasks on a kinematic control level: obstacle avoidance as a control problem [J]. Robotics and Autonomous Systems, 2013, 61(9): 948-959.
[2]
KANARACHOS S, KANARACHOS A. Minimum order bangbang guidance for feedforward obstacle avoidance steering maneuvers of vehicles [J]. International Journal of Automotive Technology, 2013, 14(1): 37-46
[3]
JIAN Y, ZHANG Y. Survey on technology of mobile robot path planning [J]. Journal of Computer Applications, 2014, 34(10): 2844-2849. (简毅,张月.移动机器人全局覆盖路径规划算法研究进展与展望[J].计算机应用,2014,34(10):2844-2849.)
[4]
RASHID A T, ALI A A, FRASCA M, et al. Path planning with obstacle avoidance based on visibility binary tree algorithm [J]. Robotics and Autonomous Systems, 2013, 61(12): 1440-1449.
[5]
MABROUK M H, MCLNNES C R. Solving the potential field local minimum problem using internal agent states [J]. Robotics and Autonomous System, 2008, 56(12): 1050-1060.
[6]
HU Y, ZHANG Q. Multirobots path planning based on improved artificial potential field method [J]. Advanced Materials Research, 2012, 562/563/564: 937-940.
http:///AMR.562-564.937
[7]
GAO Y, ZHU F, SONG H. Evolutionary operant behavior learning model and its application to mobile robot obstacle avoidance [J]. Journal of Computer Applications, 2013, 33(8): 2283-2288. (郜园园,朱凡,宋洪军.进化操作行为学习模型及在移动机器人避障上的应用[J].计算机应用,2013,33(8):2283-2288.)
[8]
WANG Y, CHEN W. Path planning and obstacle avoidance of unmanned aerial vehicle based on improved genetic algorithms [C]// Proceedings of the 2014 International Conference on Electrical, Control and Automation. Lancaster: DEStech Publications, 2014: 8612-8616.
[9]
MEHDI FATEH M, FATEH S. A precise robust fuzzy control of robots using voltage control strategy [J]. International Journal of Automation and Computing, 2013, 10(1): 64-72.
[10]
YANG X, MOALLEM M, PATEALN R V. A layered goaloriented fuzzy motion planning strategy for mobile robot navigation [J]. IEEE Transactions on Systems, Man and Cybernetics, 2005, 35(6): 1214-1224.
[11]
CHEN W, ZHU Q. Mobile robot path planning based on fuzzy algorithms [J]. Acta Electronica Sinica, 2011, 39(4): 971- 974. (陈卫东,朱奇光.基于模糊算法的移动机器人路径规划[J].电子学报,2011,39(4):971- 974.)
[12]
MOTLAGH O, TANG S H, ISMAIL N, et al. An expert fuzzy cognitive map for reactive navigation of mobile robots [J]. Fuzzy Sets and Systems, 2012, 201: 105-121.
[13]
LOUKIANOV A, SUGISAKA M, KIMURA H, et al. Implementing distributed control system for intelligent mobile robot [J]. Artificial Life and Robotics, 2004, 8(2): 159-162.
[14]
ZHAO H, YUE H, ZHANG Y, et al. Design of a distributed ultrasonic detecting system for autonomous mobile robot [J]. Journal of Hebei University of Technology, 2006, 35(6): 5-10. (赵海文,岳宏,张雅丽,等.移动机器人分布式超声探测系统设计[J].河北工业大学学报,2006,35(6):5-10.)
[15]
ZAKI A M, ARAFA O, AMER S I. Microcontrollerbased mobile robot positioning and obstacle avoidance [J]. Journal of Electrical Systems and Information Technology, 2014, 1(1): 58-71
[16]
KOVACIC Z, BOGDAN S. Fuzzy controller design: theory and applications [M]. HU Y, ZHANG L, LIU Y, et al. translated. Beijing: China Machine Press, 2010: 32-50. (KOVACIC Z, BOGDAN S. 模糊控制器设计理论与应用[M].胡玉玲,张立权,刘艳军,等译.北京:机械工业出版社,2010:32-50.)
[17]
JONES J L. Robot programming [M]. YUAN K, ZHOU W, translated. Beijing: China Machine Press, 2006: 69-73. (JONES J L. 机器人编程技术[M]. 原魁, 邹伟,译. 北京: 机械工业出版社, 2006: 69-73.)
[18]
JIANG G, JIN X, HU X. Mobile robot navigation based on application of fuzzy algorithm [J]. Mechanical & Electrical Engineering Magazine, 2006, 23(2): 53-57. (江贵龙,金祥克,胡旭东.基于模糊算法的移动机器人导航[J].机电工程,2006,23(2):53-57.)
关键词:垂直搜索引擎;网络蜘蛛;Heritrix;体系结构
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)15-3662-03
Heritrix Architecture-based Vertical Search Engine
CHEN Hao, GUAN Wei
(Guangdong Technical College of Water Resources and Electric Engineering, Guangzhou 510635, China)
Abstract: The vertical search engine as a new search engine service model, It completely solved the large amount of information has always existed in the general search engine query is not accurate, not deep enough, a series of questions. In this paper, in-depth analysis of the Her itrix architecture, Described in detail the whole process Heritrix data collected in the vertical search engine.
Key words: vertical search engine; web spiders; Heritrix; architecture
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
垂直搜索引擎是针对某一个行业的专业搜索引擎,是对搜索引擎的细化和延伸,是对网页库中某类专业信息进行的一次整合,通过定向分词字段抽取出需要的数据,经处理后再以特定的数据库格式返回给用户。
i J2vm7Gji;z0垂直搜索引擎相比通用搜索引擎最大的区别在于对网页信息的结构化信息抽取,通过将网页中的非结构化数据抽取成特定的结构化信息数据。通用搜索引擎是基于视觉的网页块分析,以网页块作为最小单位;而垂直搜索是以结构化数据作为最小单位,将这些结构化数据存储到数据库中,经深度加工即去重、分类、分词、索引等一系列处理后,再以检索的形式满足用户的需求。中国经济网经济博客*c’vwjq8zT)X
垂直搜索引擎的应用领域广泛,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索等等,几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
1垂直搜索引擎的数据采集技术
垂直搜索引擎由抓取模块、索引模块、搜索模块和信息数据库组成。抓取模块通过网络蜘蛛负责在信息源中抓取数据并存入信息数据库;索引模块对信息数据库中的数据建立索引库为用户提供快速的检索服务;搜索模块一般以B/S形式出现,根据用户的检索词为用户提供有效的检索信息;信息数据库中则存储了抓取模块抓取回来的信息。
垂直搜索引擎抓取模块中的网络蜘蛛和通用搜索引擎网络蜘蛛相比更加专业,定制化范围针对性更强。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页,通过深度优先采集策略,对页面更新频率有选择的进行调整。根据垂直搜索引擎对信息要求的特点,数据采集须由以下几个方面进行考虑:
1)信息源的稳定性,不能让信息源网站感觉到来自网络蜘蛛的压力。
2)抓取成本的控制问题。
3)用户检索方式的改善程度。
根据以上三点制定一种较好的爬取策略,要做到恰到好处。策略上可以对网站中网页更新的系数、网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数先行做评估,根据这些系数来确定这些网站中网页更新的频率。再由此更新频率对网页进行分级判定,以此降低成本又很好的解决了更新网页的抓取问题,系数比较低的网页一月抓取一次,稍微高点的一周抓取一次、中等的几天到一天抓取一次、高的几小时到几分钟抓取一次。
2 Heritrix的特点
基于系统可移植性和可扩展性的方面考虑,垂直搜索引擎的网页搜集部分使用开源的Heritrix作为爬虫(或网络蜘蛛)。Heri trix作为Java开源项目,是SourceForge上的开源产品。其实现原理是根据给定URL地址向网站提交HTTP请求,抓取网络资源,获取完整、及时的站点内容。通过分析已下载网页内的有效链接URL地址,进一步获取更多的网络资源。Heritrix可以通过Web用户界面方便地启动和管理下载进程,控制策略灵活。也可以获取图像以及其他非文本内容。储存的页面内容不会被修改,完成相应网页库结果,并生成本地文件及相应的日志信息。
Heritrix作为网络蜘蛛,具有以下特点:
1)专注的网络信息下载功能。
2)适用于各种类型网页信息并严格保持网页原貌。
3)在保留历史的下载网页库内容基础上不断地添加新的下载内容。
4)以任务形式管理并提供命令行和友好的Web控制界面。
5)可配置参数众多可更为灵活地管理下载任务。
3 Heritrix体系结构分析
Heritrix的体系结构是采用了多线程和链接队列的形式组织。整个系统的工作部分可以分成对配置文件管理部分、下载任务管理部分、下载控制部分和下载工作单元。附带的工作队列、缓冲区等的引入则为网络蜘蛛提供了良好的性能。
整个体系围绕下载控制器组织,从外部配置文件获取运行参数和下载任务配置。生成下载任务管理器和待下载的网络资源列表。
1)整个系统结构中以多线程队列作为工作的基本机制,不断地从任务管理其获取新的下载列表。
2)下载列表经过抓取范围控制器进行过滤,提交给下载地址管理器。
3)下载管理器中的网页URL,根据控制器要求,形成等待下载队列。
4)处理器链接根据下载队列的内容,根据处理器和线程池等其他资源的空闲情况,不断形成内部的工作链。
5)最终调用负责网络访问的CrawlURL对象进行处理,得到的下载页面经过分析提供新的下载链接,填充到下载任务队列中。
上述的基本过程不断循环,完成新资源的发现和已下载资源的不断更新,最终形成一个自动运行的网络蜘蛛。Heritrix网络蜘蛛工作的体系结构如图1所示:
4 Heritrix的功能和作用
下载控制器是整个体系的总体框架,控制器组合网络蜘蛛的各种工作部件。其中每一部分的功能和作用描述如下:
1)下载控制器CrawlController
下载控制器CrawlController是整个下载过程的总控和指挥者。控制其他功能部件的协调工作,组合了在网络抓取过程中所有需要协同工作的功能类。以主线程的形式运行,为网络蜘蛛的运行提供了高层的访问接口,避免使用者的复杂操作。通过调度,最终把下载地址管理器Frontier中地址列表传递给线程池中的ToeThreads,完成下载任务。下载控制器中的不同组件不必互相调用,通过控制器就可以完成联系,形成了整体的运行环境。
2)下载管理器CrawlOrder
下载管理器CrawlOrder根据配置信息生成下载的任务对象,任务配置信息通常读取Order.xml和seed.txt的内容形成。读取的结果会形成一系列的下载任务内容属性。Order.xml用来配置爬取过程中的功能类组合,可以用于功能扩展。Seeds.txt文件时用来存放希望抓取的网站入口地址。
3)范围控制器CrawlScope
CrawlScope是按照规则对下载内容进行过滤,主要控制将哪个URL入队。使用范围控制器可以避免下载内容的无限膨胀。
4)边界控制器Frontier
边界控制器Frontier主要用来确定下一个将被抓取的网页。实现对网站访问的均衡处理,避免过多线程同时访问同一网站造成网站的压力。下载后的结果也被返回Frontier中,利用分析得到的新的URI进行后续访问。Frontier内至少要包括最新发现的URL资源列表、正在处理的URL列表、已经下载的URL列表。Frontier工作中需要依赖PreconditionEnforcer、LinksScoper和Frontier Scheduler对象。PreconditionEnforcer对象用来在抓取前检查DNS和robots,避免非法抓取;LinksScoper用来判断正在处理的地址是否属于下载范围内,下载优先级如何控制等;The FrontierScheduler用来把新发现的地址URLs添加到Frontier中安排下载。
5)服务器缓存Servercache
服务器缓存Servercache实现搜索引擎汇中的DNS缓存功能。Servercache中存放服务器的持久信息,包括IP地址、历史下载记录、机器人策略等。缓存中的信息能够被爬行部件随时查到,用来加快网络爬虫的下载速度。
6)Web管理控制台
Web管理控制台依赖于Heritrix服务已经启动,为用户提供更方便的访问方式。管理控制台提供了密码保护,相关的内容在Heritrix的配置参数里使用。
7)Crawler命令处理部件
操作者可以通过选择Crawler命令来操作控制台。通过命令行参数也可以方便地操作网络蜘蛛,其中包含了足够的信息表明要爬的URL和操作控制参数。
8)处理链ProcessorChainList
处理链保存了当前网络爬虫的任务链表,储存当前的工作状态和控制下载流程。处理链中主要包含了五个重要的链表,包括:预取处理链(Pre-fetch processing chain)、抓取处理链(Fetch processing chain)、抽取处理链(Extractor processing chain)、写处理链(Write/index processing chain)、提交处理链(Post-processing chain)。
1)预处理链(Pre-fetch processing chain):主要根据robot协议、DNS以及下载范围控制信息判断网络地址是否当前下载,另外完成一些准备工作,如对处理进行延迟和重新处理。内部依赖于Preselector和PreconditionEnforcer类对象完成相应的功能。
2)抓取处理链(Fetch processing chain):主要是下载获得需要的各种网络资源,利用FetchHTTP等功能类,完成DNS转换、填写HTTP资源请求和响应表单,接收获得的信息。
3)抽取处理链(Extractor processing chain):当提取完成时,分析网页内的HTML和JavaScript,提取新的资源URL,保持到相应的队列。
4)写处理链(Write/Index processing chain):存储爬行结果,返回内容和抽取页面特征,完成信息过滤并储存。采用默认的ARC? WriterProcessor进行处理,通过扩展的处理,可以直接完成分析和索引并存储操作。
5)提交处理链(Post-processing chain):完成最后的日志和资源维护,所有队列资源都会最终进入提交处理链,即使被拒绝下载的资源地址也会进行边界测试等操作。内部依赖于CrawlStateUpdater、LinksScoper、FrontierScheduler等操作。
5 Heritrix工作流程
Heritrix整个处理链协调工作前后衔接,形成网络蜘蛛的流水式下载流程,最大程度地发挥系统工作效率。其工作流程结果如图2所示:
6结论
Heritrix丰富的体系结构和多元化的定制功能,为垂直搜索引擎更加专注、具体和深入的信息化服务模式提供了必要的数据支持,为满足某一特定领域或某一特定人群对于某一特定信息需求提供了有效保证。
参考文献:
[1]黄玮夏.分类搜索引擎的体系构建及其使用方法探析[J].情报科学,2010(4).
[2] Sriram Raghavan,Hector Garcia-Molina.Crawling the hidden Web[C].Proc. of the International Conference on Vary I arge Data Bas es(VLDB), Rome, Italy,2010,9.
[3]陈振宇,赵继海.搜索引擎的工作机制与web信息检索技术[J].情报检索,2009(11).
·相互协调的n个机器人系统的能力可以远大于一个单机器人系统的n倍,群体机器人系统还可以实现单机器人系统无法实现的复杂任务;
·设计和制造多个简单机器人比单个复杂机器人更容易、成本更低;
·使用群体机器人系统可以大大节约时间,提高效率;
·群体机器人系统的平行性和冗余性可以提高系统的柔性和鲁棒性等。
此外因为群体机器人系统具有空间分布、功能分布、时间分布等特点,利用这些特点可以达到以下目的:
·通过群体机器人系统内在特性提高完成任务的效率;
·通过共享资源(信息、知识等)弥补单机器人能力的不足,扩大完成任务的能力范围;
·利用系统内机器人资源的冗余性提高完成任务的可能性,增加系统的性能。
因此,进行群体机器人系统的研究是机器人技术发展的必然趋势,必将对机器人技术的发展带来划时代的变革。
1 群体机器人研究的主要内容
群体机器人系统的主要研究内容为:群体机器人系统的通信,群体机器人系统的协作与控制,群体机器人系统冲突问题的解决。
根据系统中机器人功能结构的不同,可将群体机器人系统分为同构系统和异构系统。同构系统就是系统中每个机器人的结构相同、功能相同;异构系统中每个机器人的结构和功能不尽相同。对于同构群体机器人系统研究的主要问题是设计正确的控制方案和通信机制,使之能正确完成给定的任务;而对于异构群体机器人系统的研究主要是解决如何在它们之间进行有意识的合作问题,另外还有动作选择问题、通信冲突问题的解决。不论是同构系统还是异构系统的研究对群体机器人系统的研究都起着重要作用,下面以同构系统为主来讨论群体机器人的研究。
1.1 群体机器人系统的通信
群体机器人系统的通信是研究群体机器人系统的基础,由(文秘站:)各个个体机器人组成一个群体系统,通信是必不可少的。
群体机器人系统在执行某项任务时,为了实现协调与合作,个体机器人的传感器必须提供足够的环境描述信息和其他机器人的信息,因此机器人个体之间或者上层控制和下层合作之间的通信是必要的。机器人之间的通信方式主要有两种,即直接通信和间接通信。直接通信要求发送和接收信息能保持一致性,因此机器人之间需要一种通信协议,而且直接通信时发送方和接收方必须同时在线,间接通信没有此项要求。一般来说,直接通信存在于有智能的机器人之间,而间接通信存在的范围就比较大,如个体和个体通信、个体和群体通信、个体和环境通信等。目前,大部分关于群体机器人的通信主要采用广播的方式,即个体机器人将自己的位置和传感器信息以及自己从事的工作信息广播出去,其他个体机器人可以按自己的需要选择信息,或主控机器人通过广播分配任务等。
通信方式的选择是保证通信的有效性和实时性的基本要求,在实际应用中根据机器人的结构和任务要求来选择,目前群体机器人的通信还存在许多瓶颈问题,如机器人数目增加时,通信速度和效率将下降。
1.2 群体机器人系统的协作与控制
机器人之间的协作与控制问题属于群体机器人系统中的高级控制任务,是研究群体机器人系统的关键技术。
机器人群体系统是由机器人个体按照一定关系联系起来,并具有自我调整的功能,系统中机器人个体和机器人群体都要协作动作,以实现机器人群体的功能。借鉴组织行为学的理论,群体机器人系统研究对象包括机器人个体、机器人群体两个层次,即机器人个体行为和机器人群体行为。机器人个体行为主要包括机器人个体对环境的感知、学习、响应以及自适应动作的协调。机器人个体控制系统是实现个体行为的基础,机器人个体控制系统要求能使个体表现出较强的协作性和自主性。协作性是指机器人能协调合作的能力;自主性是指机器人具有一定的自主能力、能感知环境的变化并能作用于环境。系统的协调行为在很大程度上依赖于如何处理机器人的自主和协作之间的关系;机器人群体行为是机器人个体行为的合成,典型的群体行为研究有集中行为、分散行为和编队行为等。根据机器人群体结构分布的不同相应的控制结构也不同,可分为集中式和分布式两种。集中式控制由一个机器人或者PC机对任务进行调协规划并集中调度;分散式控制中任务分配是通过机器人之间的交互来实现的,每个机器人基于自己的传感器信息和内部状态规划各自的行为,通过协商等手段消解冲突。
为研究机器人群体的协作机制,以提高群体的协作能力,目前多采用下述控制机制,包括:
(1)基于信息资源库共享;
(2)基于传感器信息共享的控制:依靠通信装置,每个机器人上的传感器不再是私有享用,其他机器人通过通信也可享用;
(3)基于资源竞争规则的调度机制:资源包括作业空间、作业顺序、作业工具等,该控制策略最基本的目标是解决死锁问题;
(4)基于任务与能量最佳匹配原则的动态组成、重构控制;
(5)并行规划算法。
1.3 群体机器人系统冲突的解决
[!] 在群体机器人系统中还有一个很重要的问题就是系统中冲突问题的解决。在群体机器人系统中冲突的形式是多种多样的,主要有任务冲突、路径冲突和空间冲突等。群体机器人系统中的冲突很容易造成系统的混乱,严重影响了系统的总体性能。解决冲突除了要有合理的控制结构和通信方式外,也需要相应的解决策略。在群体机器人系统中,每个机器人都把其他机器人当作障碍物来处理,并通过传感器探测障碍物的有无。同时机器人也根据定期接收到的信息来处理传感器的不确定性,并区分机器人障碍物和非机器人障碍物,由此选择不同的处理方法。群体机器人系统冲突问题的解决办法有很多,最直接的方法是采用集中控制器来决定所有机器人的无冲突路径,但是这种方法在实用性方面具有一定的缺陷。另一种方法是主从控制法,在冲突的机器人中有一个作为主控,指挥别的机器人以解决冲突问题。
对于群体机器人系统的研究除了上述几个主要的方面外还有群体机器人系统的学习问题、系统的组织结构问题和环境的观察问题等。
2 国内外群体机器人研究现状
经过二十几年的发展,群体机器人系统的研究已在理论和实践方面取得很大的进展,并建立了多机器人仿真系统和实验系统。目前,国内关于群体机器人系统的研究刚刚起步,而国外的研究则比较活跃。欧盟专门设立了一个进行多机器人系统研究的MARTHA课题——“用于搬运的多自主机器人系统(multiple autonomous robots sy
stem for transport and handing application)″。日本对群体机器人系统的研究开展得比较早,着名的研究有ACTRESS系统和CEBOT系统。ACTRESS系统是由日本H.Asama等人提出的通过设计底层的通讯结构而把机器人、周边设备和计算机等连接起来的自治多机器人智能系统,这个系统的主要特点是系统的单个动作和合作动作的并存。日本名古屋大学的Fukuda教授提出的CEBOT系统,每个机器人可以自主地运动,没有全局的世界模型,整个系统没有集中控制,可以根据任务和环境动态重构、可以具有学习和适应的群体智能,具有分布式的体系结构。美国学者K.Jin和G.Beni等研究了SWARM系统。SWARM系统是有大量自治机器人组成的分布式系统,其主要特点是机器人本身被认为无智能,它们在组成系统后,将表现出群体的智能。在国内已开发出在车辆拥挤时自行移动的全方位移动结构,还开发了使用带有桶型自由辊的车轮,用3个传动装置驱动可自由地前后左右移动或旋转的递补结构。 我国群体机器人的研究相对于国外起步较晚,目前已逐渐引起人们的重视,上海交通大学,中国科学院,哈尔滨工业大学机器人研究所,东北大学等已先后开发出各种形式的群体机器人系统。
总体上说,国内外对群体机器人的研究已取得了令人瞩目的进展,但与工业机器人相比,实用性尚有很大的差距,需要解决以下几个方面的问题:
(1)如何使机器人个体之间相互通信和相互作用;
(2)如何在各机器人间表达、描述问题,分解和分配任务;
(3)如何保证机器人在行动中的行为协调一致;
(4)机器人彼此之间如何识别和解决冲突。
3 群体机器人系统未来主要研究方向
3.1 高度自动化的命令接口
目前,尽管机器人群体作为一个人工制造的智能群体,还处在比较初级的阶段,但是作为一个复杂系统,已能实实在在地体现人类的智慧和人类社会的形态。但人们创造机器人的主要目的是利用机器人协助或代替人类从事不便、危险或无法完成的任务,这就决定了机器人遵从人的指令。因此机器人如何更有效的理解人类的意图,让人类更方便、有效的向机器人发号施令,将是未来很重要的一个研究方向。
3.2 机器人整体模型
机器人实际上是仿生学的产物。作为一个参与群体活动的个体,如何对其能力进行刻画,也就是如何对机器人进行形式化描述,定义机器人整体模型,是评价和组成一个机器人系统的必要手段。
3.3 机器人社会学
机器人根据作用的不同存在很多不同的种类,就典型的军用机器人来说,可分为航天、航空、地面、水下等多种类型。对于现代化战争,未来的战场一定是立体化、全方位、人机混杂的形态,因此,各类具有自主能力的机器人群,在执行任务时将会是一个较为复杂的机器人社会。在某些无人参与的场合,这些机器人群体的协同工作,实际上形成了一个短暂的社会活动。如何使这个社会正常有序、经济有效的运行,如何使不同类型的机器人构成合理的运行组织,并如何使受到破坏的组织迅速恢复,这将是机器人社会学研究的内容。而对于人机混合活动的人机社会学更是亟待深入研究发展的方向。