什么是robots协议对seo的影响

什么是robots协议对seo的影响

什么是robots协议

蜘蛛spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。早期robots协议是防止网站内的隐私,防止抓取用户不想让搜索引擎曝光的页面。

robots.txt文件位置

robots.txt文件应该放置在网站根目录下。比如https://www.vi586.com/robots.txt这个文件

robots一般格式

User-agent: *
Disallow: 
allow:

robots不支持中文

百度蜘蛛目前在robots里不支持中文,如果路径里面带了中文,可以选择UrlEncode编码的写法,如

http://www.xx.com/tags/%D7%B0%D0%DE%CE%AC%BB%A4%B1%A3%D1%F8.html

"*"和"$"的含义

Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

robots协议对seo优化的影响

1.屏蔽隐私内容或无内容页面。前面提到蜘蛛的爬取对索引量有着重要的作用,能缩短收录周期。蜘蛛一般都会全站爬取内容,但有些质量一般的页面被抓取会影响整体排名,比如:登陆页、注册页、购物车、表纲、个人隐私文件等。

2.屏蔽某些动态的内容屏蔽,如:tag标签,在刚开始的时候尽量屏蔽蜘蛛抓取,到后期稳定的时候再整理后开放。tag标签的作用可以参考《TAG标签的正确用法》

3.屏蔽重复内容页面。如:多个页面无内容或空评论;不同路径打开的页面都一样。跟带www和不带www的页面说法不一样,可以把这两个页面301重定向到其中一个,集中权重。

4.屏蔽死链接。一般的死链会返回404错误,当然站内错误或服务器问题,是无法屏蔽的。

robots的主要功能

1.禁止蜘蛛抓取

dede后台有很多php、js、css等内容,但这些内容对排名没有太大作用,可以使用disallow禁止抓取

User-agent: sogou spider
Disallow: /

代表禁止搜狗蜘蛛进行抓取,在中国大陆范围内,一般的企业网站只要百度蜘蛛,谷歌蜘蛛,360蜘蛛就可以了,其他蜘蛛频繁抓取网站会造成网站访问速度受到影响。如果禁止这些蜘蛛进行抓取,搜索引擎认为你是不友好的。

2.引导蜘蛛抓取

Sitemap: http://www.vi586.com/sitemap.xml

以上字段是引导蜘蛛按照sitemap网站地图的要求抓取。蜘蛛的抓取顺序是按照编写自上而下,如果控制得越精确,则遵循精确的规则。

3.控制抓取范围

该行有符号“/”,代表着只包含该栏目下的文章/目录/子类,不包含本身;

反之无“/”,代表包含包含该栏目下的文章/目录/子类和本身。

4.举例最常见的robots.txt写法

DedeCMS的robots的写法:

User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /plus/heightsearch.php
Disallow: /tags.php
Disallow: /member
Disallow: /include
Disallow: /templets
User-agent: sogou spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Teoma
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: Scrubby
Disallow: /
User-agent: Robozilla
Disallow: /
User-agent: Nutch
Disallow: /
Sitemap: http://www.xiuzhanwang.com/sitemap.xml

这里要注意网站地图网站robots的最后面,让搜索引擎先遵循抓取范围再引导抓取结构。

robots安全重要说明

robots不管是对搜索引擎还是对任何人都是可以访问的,容易暴露某些隐私或后台程序,而每个建站程序都有漏洞,树大才招风,黑客利用这些漏洞做些不好的事情,后果不堪设想。一般的大型网站都是自己搭建程序,成本较高,漏洞也较少(只是没那么多人攻击)。

对DEDE、DZ、PW等使用的比较多的建站程序,有很多开源的功能,没有经验的站长很容易成为别人的“肉鸡”,经常检查自己网站的外链、快照情况就能发现是不是被人动了手脚。查看文章《别让网站的robots成为最大的漏洞》。

主题测试文章,只做测试使用。发布者:佰搜SEM,转转请注明出处:https://baidusem.com/8624.html

(0)
佰搜SEM的头像佰搜SEM
上一篇 2024年12月12日 上午10:02
下一篇 2024年12月13日

相关推荐

  • 网站收录不正常?原因分析及解决方案详解

    随着互联网的快速发展,越来越多的企业和个人选择通过建立自己的网站来展示企业形象、拓展业务,在实际运营过程中,很多网站主都会遇到网站收录不正常的问题,本文将针对这一问题,从原因分析和解决方案两方面进行详细探讨。 网站收录不正常的原因 1、网站内容质量低 是搜索引擎收录的基础,如果网站内容质量低,如存在大量重复、抄袭、无价值的内容,搜索引擎很难将其收录,网站内容…

    2025年4月30日
    3500
  • SEM的重点关键词有什么设置技巧?

    ① 搜索量高的词,用来引流量或者曝光;② 竞争激烈的地域词,说明访客意向性最 强的词,转化成单率也最 高;③ 自身品牌词,毫无疑问是转化最 高的词;④ 咨 询词、表单词、成交词等,竞价的主要目的之一就是获取转化量;⑤ 部分竞品词也可能成为重点词,比如招商加盟行业的竞品词流量和转化可能比自身品牌词要好;⑥ 高消费词,因为竞价账户是需要花钱的,那么就要关注一下那…

    SEO优化 2024年6月21日
    6100
  • Google对网站收录时间显示,揭秘搜索引擎优化背后的秘密

    随着互联网的快速发展,网站数量呈爆炸式增长,在如此庞大的信息海洋中,如何让自己的网站脱颖而出,成为广大网民关注的焦点,成为了众多网站运营者关心的问题,而搜索引擎优化(SEO)就是解决这一问题的关键,我们就来揭秘搜索引擎优化背后的秘密,探讨Google对网站收录时间显示的影响。 Google对网站收录时间显示的重要性 1、提高网站曝光度 当你的网站被Googl…

    2025年4月24日
    3100
  • 揭秘外刊收录,哪个网站最好看?

    随着互联网的普及,越来越多的读者开始关注外刊阅读,外刊不仅可以帮助我们拓宽视野,提高英语水平,还能让我们紧跟国际动态,哪个网站收录的外刊最好看呢?本文将为您揭秘。 外刊的重要性 外刊,即国外出版的报刊杂志,具有权威性、时效性和深度等特点,阅读外刊,可以帮助我们: 1、提高英语水平:外刊文章语言地道,词汇丰富,阅读外刊有助于我们学习地道的英语表达。 2、拓宽视…

    2025年3月7日
    4400
  • 新疆网站收录现状,数量与质量的辩证分析

    随着互联网的快速发展,新疆地区的网站数量也在逐年增加,新疆网站收录的数量究竟有多少?本文将从数量与质量两个方面对新疆网站收录现状进行辩证分析。 新疆网站收录数量 1、数据来源 为了了解新疆网站收录数量,我们以百度搜索引擎为例,通过查询相关数据进行分析,以下数据来源于百度搜索引擎的搜索结果。 2、新疆网站收录数量分析 根据百度搜索引擎的数据显示,截至2021年…

    2025年4月21日
    3600

联系我们

在线咨询: QQ交谈

邮件:3413323304@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
网站+域名可转让!