网站的后台内部数据要保密,防止被黑客等不法分子攻击网站安全和窃取资料文件,以及和搜索引擎蜘蛛遵守robots协议....

一:什么是robots

robots是一个协议,给搜索引擎蜘蛛看的,告诉搜索引擎那些文件不准抓取,那些文件可以抓取,就像一个守门

的保安站在门口,有好比如入学先要看校规一样,robots文件是放在根目录里面的,格式为robots.txt

二:robots文件解读

User-agent: *

User-agent指的是针对谁,允许谁的意思,*指的匹配所有的意思,整句话可以理解为允许所有的意思

User-agent: Baiduspider指的是允许百度蜘蛛抓取

allow指的是允许

/指的是目录下面的层级,路径层次

allow:/ 指的是允许抓取整个网站的目录

Disallow指的是不允许

Disallow:/ 指的是不允许抓取整个网站的目录

Disallow: /data/指的是不允许抓取data/下面的文件

$:美元符号指的是匹配文件类型的意思,比如:jpg,png,txt,html等文件格式

三:robots需要屏蔽的内容

Disallow: /api/

Disallow: /data/

Disallow: /sourcel/

Disallow: /install/

Disallow: /template/

四:网站地图可以写入robots吗

网站地图有两种,一种是html的,另一种是xml的,蜘蛛第一时间访问的是robots,所以我们把网站的地图也放在这里,更容易让蜘蛛知道我们网站的文件有什么,两种文件地图都可以写入robots里面,比如

Sitemap: http://www.habaijian.com/sitemap.xml

Sitemap: http://www.habaijian.com/sitemap.html

五:如何写一个简单的robots

User-agent: *

Disallow: /api/

Disallow: /data/

Disallow: /sourcel/

Disallow: /install/

Disallow: /template/

Sitemap: http://www.habaijian.com/sitemap.xml

Sitemap: http://www.habaijian.com/sitemap.html

注意点:不要随便屏蔽蜘蛛,会影响收录,收录都没了,那么我们也就没什么流量,流量没有网站就完了,robots的生效时间一般是9天或者两个月左右。