展现网站最优质内容正确配置Robots文件

2009-12-11 18:36| 发布者: admin| 查看: 22| 评论: 0|原作者: 小寳寳

核心提示：一个网站要建立好良好的形象，必定要“扬长避短”。通过robots.txt来限制蜘蛛的爬行页面，不让蜘蛛爬行质量比较低劣的网页。

Google，雅虎，微软就合作共同遵守统一的Sitemaps标准，又宣布，共同遵守的robots.txt文件标准。Google，雅虎，微软各自在自己的官方博客上发了一篇帖子，公布三家都支持的robots.txt文件及Meta标签的标准，以及一些各自特有的标准。下面做一个总结。
三家都支持的robots文件记录包括：
Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件：
User-agent: *
Disallow: /
Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件：
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL：
User-agent: *
Allow: .htm$
*通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件：
User-agent: *
Disallow: /*.htm
Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里，格式为：
Sitemap:
更多精彩点击下一页

收藏分享邀请

		自动登录	找回密码
密码			注册

展现网站最优质内容正确配置Robots文件

最新评论

相关分类

展现网站最优质内容 正确配置Robots文件

最新评论

相关分类

展现网站最优质内容正确配置Robots文件