互联网营销推广

PC端+移动端+小程序+APP=多端数据同步

热线电话:0512-83508950
24小时热线:15862398526

网站建设

网站建设中的"Robots"真需要么?

极客派网络科技时常会碰到一些客户咨询关于ROBOTS.TXT是否需要?今天就将答案写在科这里,希望对这个问题存有疑问的朋友看看这篇文章。


    对于有需要屏蔽Spider抓取的内容的网站来说,当然是需要robots.txt文件。但是对于希望把内容全部开放给Spider的网站来说robots.txt就没有意义了,那么此时还需不需要这个robots.txt文件呢?


    早在2012年11月,百度,360和搜狗等国内主流搜索引擎签署了 《互联网搜索引擎服务自律约》,全部支持robots.txt协议。搜索引擎支持robots,也就是在抓取网站内容之前需要抓取网站内容之前需要先抓取网站的robots.txt文件。


    如果网站不设置robots.txt文件,正常情况下服务器会返回404状态码,但是有些服务器会返回200或其他错误。针对返回404状态码的服务器,就不地做特殊处理了。因为搜索引擎抓取一两次都发现网站没有设置robots.txt文件,在一定周期内主不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外信和的服务器,最好重新配置下,设置为对访问服务器上的不存在的URL或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或抓取全部内容设置的robots.txt文件,以防服务器对Spider做出错误的引导。


    有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.txt文件有可能会浪费Spider的抓取次数,毕竟Spider对一个网站的抓取次数是有限的。其实不必过份担心,不论你设置robots.txt与否,搜索引擎都会频繁抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.txt文件,并不会造成对网站抓取次数的浪费。


您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。

留言享免费定制方案

感谢您的信任,我们将在一个工作日内与您取得联系。您还可以直接来电咨询:15862398526