robots禁止抓取规则为什么还被收录

       有时候不希望搜索引擎抓取某些内容可以写robots.txt文件放到根目录,按理蜘蛛会首先读取这个文件,按照robots协议抓取相应的内容。但是许多站长们发现,蜘蛛并不太遵守这个协议。

       为验证这个问题,做了测试后发现,如果蜘蛛已经抓取并有索引、快照了,这个时候再写robots就不遵守这个协议了,一般在robots中禁止抓取文件夹如下,

Disallow:/about/

       还不放心,在页面里增加<meta>声明

<meta name="robots" content="noindex,follow" />

       这个声明的意思是告诉蜘蛛不建立索引,可以沿着路径继续抓取内容。以为这就能让已经收录的快照删除了,有网友说这需要等待,时间都说不好。

       百度有个规则是判断页面质量,如果多个页面重复内容过多,会被降权,甚至移出索引库。等待很长世间才会被移出索引库,一般调整过的网站的收录量会减少,但不是大幅度减少,是因为有些垃圾页面在算法更新后被移出索引库而已,这对于正规SEO做法的站长来说是好事,垃圾页面会影响到网站的排名。

       robots和nofollow都能控制蜘蛛抓取范围,而两个的用法不尽相同。

robots协议

       告诉蜘蛛哪些内容可抓取,哪些不可抓取。原则是:参与排名的就让蜘蛛抓,不参与的或涉及到信息安全的不抓取。

nofollow标签

       告诉蜘蛛该页面内,某链接不可信任,不传递权重。一般在页面链接较多的情况下(页面会给该页面下所有链接权重),为了集中页面权重,一些无关紧要的链接采用nofollow加以控制。

       简单说,nofollow主要是为了集中某个页面的权重,而robots是控制整个网站的蜘蛛抓取范围。那么问题来了,为什么很多时候蜘蛛不遵守我们的robots协议呢?(一些垃圾蜘蛛是完全不遵守robots协议的)我们说的蜘蛛主要指百度、谷歌蜘蛛。

①书写错误

       robots.txt的书写格式是一行一行的写,不能连着写,如

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

       每个记录都需要另起一行,每个记录里不允许空行,空行用来分割不同的记录。正确的如

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

       很多时候搜索引擎抓取了你 robots.txt 不允许抓取的内容不是因为机器人不遵守,而是从抓取到索引到展现这个过程需要一段时间,当搜索引擎已经抓取了,你才更新,那么之前抓取的是不会那么快删掉的,删除周期并不规律,一般是算法更新后生效的情况多些。

       下面说下几个新手可能会需要的信息。

1、robots.txt 怎么写?       

       各大搜索引擎的站长平台(英文叫 webmasters )都有详细说明,也有生成工具。

2、怎样确定 robots.txt 有效?

       站长平台都有抓取 robots.txt 的工具,也会有“抓取工具”来确认某个页面是不是可以正确抓取。

3、怎样通知搜索引擎 robots.txt 已更新?

       和上面的一样,通过站长平台的抓取工具重新抓取(有的是“更新”)即可。

4、让搜索引擎抓取了不应该抓取的内容怎么办?

       这个常用方法有几种:

* 在站长平台的删除链接工具中输入链接并确认删除
* 修改代码使搜索引擎访问时返回错误代码(503、404等),然后在站长平台重新抓取
* 修改 robots.txt (这个只建议在上面两个操作过之后补充)

5、整站禁止抓取,如何操作更有效?

       有的搜索引擎索引是不遵守 robots.txt 的,只有在展现的时候遵守,也就是说,就算你 robots.txt 写明了禁止抓取,你会发现还是有机器人来爬。

       所以如果是大目录或者是整站禁止抓取,建议在服务器软件(如 nginx)的代码段中直接判断搜索引擎 UA 并返回错误代码。这样一方面可以减轻服务器压力,一方面可以真正禁止抓取。

主题测试文章,只做测试使用。发布者:佰搜SEM,转转请注明出处:https://baidusem.com/8915.html

(0)
佰搜SEM的头像佰搜SEM
上一篇 2025年2月8日
下一篇 2025年2月17日

相关推荐

  • 网站收录归档完成时间揭秘,影响因素与优化策略

    随着互联网的飞速发展,越来越多的企业和个人开始重视网站建设,在网站建设过程中,网站收录归档是一个至关重要的问题,很多网站运营者都在关心一个问题:网站收录归档要多久完成?本文将为您揭秘网站收录归档完成时间的影响因素,并提供相应的优化策略。 网站收录归档完成时间的影响因素 1、网站内容质量 质量是影响网站收录归档速度的关键因素,高质量的内容更容易被搜索引擎抓取和…

    2025年4月21日
    4400
  • 深度解析网站收录查询化妆品,如何提高化妆品网站在搜索引擎中的排名

    随着互联网的快速发展,越来越多的企业开始注重网络营销,尤其是化妆品行业,网站收录查询是衡量一个网站在搜索引擎中排名的重要指标,也是提高网站流量和品牌知名度的关键因素,本文将深度解析如何通过网站收录查询提高化妆品网站在搜索引擎中的排名。 网站收录查询的意义 1、了解网站在搜索引擎中的表现:通过查询网站收录情况,可以了解网站在搜索引擎中的表现,从而有针对性地进行…

    2025年4月15日
    4600
  • 谷歌收录查询网站官网详解,如何快速了解网站在谷歌的收录情况

    随着互联网的快速发展,越来越多的企业和个人开始关注网站优化和搜索引擎排名,谷歌作为全球最大的搜索引擎,其收录情况直接影响着网站的流量和曝光度,如何查询网站在谷歌的收录情况呢?本文将为您详细介绍谷歌收录查询网站官网的使用方法。 什么是谷歌收录? 谷歌收录是指谷歌搜索引擎将网站内容添加到其数据库中,以便用户可以通过搜索关键词找到该网站,当网站被谷歌收录后,用户在…

    2025年5月21日
    2100
  • 解决site网站首页不在第一的办法

    摘要 1,网站空间不稳定;2,网站首页优化过度;3,查看友情链接是不是出现问题;4,网站违规操作被降权了;5,网站被挂了黑链,首页被串改;6,首页布局经常改动;7,内页权重高于首页权重。8,首页死链太多。对症下药:1,如果是自己的网站空间不稳定,那么就换空间,当我们换空间后就意味着IP发生变化,那么有的站长会认为不利 1,网站空间不稳定; 2,网站首页优化过…

    SEO优化 2022年5月7日
    4600
  • 新收录网站焕新颜——揭秘网站模板更换背后的故事

    随着互联网的快速发展,网站作为企业展示形象、拓展业务的重要平台,其更新换代速度也在不断加快,我国某知名网站成功更换模板,焕发出新的活力,本文将带您揭秘网站模板更换背后的故事。 新收录网站更换模板的背景 1、原模板存在不足 随着网站内容的不断丰富,原模板在布局、视觉效果等方面逐渐暴露出不足,页面加载速度慢、响应式设计不佳、用户体验度不高,这些问题严重影响了网站…

    2025年3月13日
    3800

联系我们

在线咨询: QQ交谈

邮件:3413323304@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
网站+域名可转让!