网站建设

网站首页 网站首页 / 行业资讯 返回 返回

网站建设中的"Robots"真需要么?

发布时间:2019-03-19 21:27:10

极客派网络科技时常会碰到一些客户咨询关于ROBOTS.TXT是否需要?今天就将答案写在科这里,希望对这个问题存有疑问的朋友看看这篇文章。


    对于有需要屏蔽Spider抓取的内容的网站来说,当然是需要robots.txt文件。但是对于希望把内容全部开放给Spider的网站来说robots.txt就没有意义了,那么此时还需不需要这个robots.txt文件呢?


    早在2012年11月,百度,360和搜狗等国内主流搜索引擎签署了 《互联网搜索引擎服务自律约》,全部支持robots.txt协议。搜索引擎支持robots,也就是在抓取网站内容之前需要抓取网站内容之前需要先抓取网站的robots.txt文件。


    如果网站不设置robots.txt文件,正常情况下服务器会返回404状态码,但是有些服务器会返回200或其他错误。针对返回404状态码的服务器,就不地做特殊处理了。因为搜索引擎抓取一两次都发现网站没有设置robots.txt文件,在一定周期内主不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外信和的服务器,最好重新配置下,设置为对访问服务器上的不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或抓取全部内容设置的robots.txt文件,以防服务器对Spider做出错误的引导。


    有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.txt文件有可能会浪费Spider的抓取次数,毕竟Spider对一个网站的抓取次数是有限的。其实不必过份担心,不论你设置robots.txt与否,搜索引擎都会频繁抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.txt文件,并不会造成对网站抓取次数的浪费。


上一条: 网站建设几点重点要素!
下一条:企业网站整站优化有哪些参考指标?方案怎么写?