「潍坊SEO」让网站收录快速提升的robots.txt写法

2019-01-14 10:13:57  阅读 170 次 评论 0 条

在网站上线之前,我们要做一些操作,其中,有一项是很重要的,那就是robots.txt文件的设置,其实,robots文件的书写也是一种seo技术,有一定的技术含量。那么,下面潍坊SEO就来教大家robots.txt写法,让你的网站收录能够快速稳定的提升。

wp博客robots写法

什么是robots

robots是Robots Exclusion Protocol的缩写,意思是“网络爬虫排除标准”,通俗的说就是爬虫协议或者是机器人协议,通常用名为robots.txt这样的文件来写这个协议,意在告诉搜索引擎,网站上哪些页面可以抓取,哪些页面不可以抓取。搜索引擎在访问网站时,会先查看robots.txt文件,遵守我们设置的robots协议进行页面的抓取,不过有些搜索引擎可能会不遵守robots协议而随意抓取我们网站的内容,我们将之称为流氓。注意:robots.txt文件必须放在网站根目录中。

robots常见属性含义

User-agent:用户代理,用于书写搜索引擎蜘蛛的名称,*代表所有的搜索引擎,写法是:User-agent: /*,注意冒号后面要有一个空格,如果是某个搜索引擎,那么,在冒号后面写上该搜索引擎蜘蛛的名称即可,如百度蜘蛛,则是:User-agent: Baiduspider。

Disallow:用于告诉搜索引擎不可以抓取的页面。

Allow:用于告诉搜索引擎可以抓取的页面。

robots.txt常见写法示例

1.所有搜索引擎可以访问网站所有页面:

robots写法:User-agent: *

Allow: /

不让访问任何页面则把Allow换成Disallow

2.某个搜索引擎可以访问网站所有页面:(以百度举例)

robots写法:User-agent: Baiduspider

Allow: /

不让访问任何页面则把Allow换成Disallow

3.限制某个目录不被任何搜索引擎抓取,以目录a举例:

robots写法:User-agent: *

Disallow: /a/

4.限制某个路径不被任何搜索引擎抓取,以路径123.html举例:

robots写法:User-agent: *

Disallow: /123.html

5.允许目录a中的1.html被抓取,目录a其他页面不被抓取:(部分目录中的页面允许抓取)

robots写法:User-agent: *

Disallow: /a/

Allow: /a/1.html

6.禁止访问以.html为后缀的路径:

robots写法:User-agent: *

Disallow: /*.html(*表示任意字符)

7.禁止动态页面被抓取:

robots写法:User-agent: *

Disallow: /*?*

8.禁止所有图片被抓取:

robots写法:User-agent: *

Disallow: /*.jpg$($表示结束字符)

Disallow: /*.png$

Disallow: /*.gif$

Disallow: /*.bmp$

Disallow: /*.swf$

Disallow: /*.psd$

注意:要将所有的图片格式屏蔽掉

robots协议写法要点

1.一个User-agent:代表一个协议,协议可以有多个,但是User-agent: *只能有一个;

2.所有冒号后面必须有一个空格

3.隐私文件一定要屏蔽抓取,比如网站后台,还有一些博客插件、模板等文件也要屏蔽抓取。

好了,关于robots.txt写法的问题,就为大家介绍到这里了,有什么不懂的问题,欢迎在评论区留言,潍坊SEO会为大家做解答的。

本文地址:http://www.seocd.cn/114.html
版权声明:本文为原创文章,版权归济南seo老兵所有,欢迎分享本文,转载请保留出处!
老兵SEO服务

发表评论


表情

还没有留言,还不快点抢沙发?