robots协议,是所有站长都不陌生的,如果网站想要被收录,那么蜘蛛的爬取是必不可少的。

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。 ------百度百科

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些不对搜索引擎开放。推荐阅读:个人博客推荐
robots协议是Web站点与搜索引擎爬虫之间进行交互的一种方式,robots. txt是一个纯文本文件,它存储在站点的根目录中。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。此外,robots.txt必须放在网站的根目录下,文件名称必须全部小写。
robots协议的格式:
(1)User.agent:用于描述搜索引擎爬虫的名字。在robots.txt文件中,如果有多条User-agent记录,说明有多个搜索引擎爬虫会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为,则该协议对任何搜索引擎爬虫均有效,在robots.txt文件中,“User-agent:这样的记录只能有一条。
(2)Disallow:用于描述不希望被访问到的一个URL。这个URL可以是一条完整的路径,也可以是部分路径,任何以Disallow开头的URL均不会被蜘蛛访问到。
当然,robots.txt只是一个协议。如果搜索引擎爬虫的设计者不去遵守这个协议,站长也无法阻止搜索引擎爬虫访问某些页面,但是一般的搜索引擎爬虫都会遵守这些协议,而且站长还可以通过其他方式来拒绝网络蜘蛛对某些网页的抓取。
常见robots.txt:
允许所有的机器人:

User-agent: *
Disallow:
另一写法

User-agent: *
Allow:/
仅允许特定的机器人:(name_spider用真实名字代替)

User-agent: name_spider
Allow:
拦截所有的机器人:

User-agent: *
Disallow: /
禁止所有机器人访问特定目录:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):

User-agent: BadBot
Disallow: /private/
禁止所有机器人访问特定文件类型:

User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
robots协议不是技术壁垒,而是相互尊重的协议。比如私家花园的门上挂着“禁止入内”,尊重的人绕道而行,不尊重的人依然可以推门而入。所以,robots协议总的来说是防君子不防小人。

本文作者:博主:     文章标题:robots协议(爬虫协议、机器人协议)
本文地址:https://zjzdmc.top/jsfx/27.html     
版权说明:若无注明,本文皆为“Datehoer的Blog-个人博客-技术分享”原创,转载请保留文章出处。
最后修改:2021 年 04 月 20 日 10 : 59 AM
如果觉得我的文章对你有用,请随意赞赏