让搜索引擎快速收录网站页面解决办法

2024-10-04 09:58:48 80

摘要：让搜索引擎快速收录网站页面解决办法 robots.txt，是用来声明网站中不希望被搜索引擎收录的内容或用来指定搜索引擎收录内容的规则文件。

让搜索引擎快速收录网站页面解决办法 robots.txt，是用来声明网站中不希望被搜索引擎收录的内容或用来指定搜索引擎收录内容的规则文件。

　　我们知道，现代搜索引擎收录网站页面是通过网络爬虫（英文名称有很多:bots,spider,Crawler,collector,walker,Slurp等等）进行页面采集，即由网络爬虫进入网站，将网站页面以及页面下的连接页面进行下载，然后通过内容分析器来分析页面内容。而在这个过程中，robots.txt的作用就在于告诉网络爬虫，那些页面不能采集，那些页面能采集。一般来说，主流搜索引擎的网络爬虫都是遵守robots.txt规范的。具体的robots规范可参见以下网站：www.robotstxt.org和www.w3.org。

　　robots.txt要求保存为小写，存放在网站根目录下，并保证可以通过www.yourdomain.com/robots.txt进行访问的。

　　我们填写robots.txt一般只需要注意两个语法规则就可以了：User-agent和Disallow。User-agent是规定允许采集本站页面的搜索引擎；Disallow规定不允许采集的页面路径。

例一、

　　User-agent: *

　　Disallow:

　　上面规则表示允许所有搜索引擎的爬虫收录本站页面，并且允许采集所有页面。本例还有一个简便的方式，就是创建一个命名为robots.txt的空文档，放入网站个目录就好了！

例二、

　　User-agent: *

　　Disallow: /admin/

　　上面规则表示允许所有搜索引擎爬虫收录本站页面，但不允许收录/damin/目录下的所有页面。我们知道，admin目录下的页面，往往存放着后台管理页面，为了安全起见，我们不允许搜索引擎把/admin/目录下页面收录。

例三、

　　User-agent: Baiduspider

　　Disallow:

　　上面规表示只允许Baidu爬虫收录本站页面，并且允许收录所有页面。

例四、

　　User-agent: *

　　Disallow: /

　　上面规则表示任何搜索引擎爬虫都不得收录本站所有页面。对于一些不希望公开站点的网站来说，的确是比较有用的！

　　知道以上规则，我们就可以巧妙利用robots.txt。

　　国内常见的搜索引擎爬虫有：

Baiduspider、Googlebot、Slurp、MSNBOT、iaskspider、sogou+spider、Zhuaxia.com+1+Subscribers、Feedsky+crawler

你觉得这篇文章怎么样？

24 0

我们立足于合肥面向安徽乃至全国全球市场，我们拥有一支经验丰富、创意独到、团结协作的专业技术团队。我们立志把最好的技术通过最有效、最简单的方式提供给客户，为客户提供最佳的解决方案，我们将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，帮助客户在新经济时代下，把握商机和发展空间，并获得绝对的竞争力！我们专注于高端网站定制、系统开发、商城开发、外贸网站建设、公众号开发、小程序开发、网站优化推广、安全运维等技术领域。是高端定制网站领域著名服务商！

扫描二维码与小二CMS创始人沟通

7*24小时为您服务

小二CMS专注于高端网站定制、系统开发、商城开发、外贸网站建设、公众号开发、小程序开发、网站优化推广、安全运维等技术领域。是高端定制网站领域著名服务商！

本文标题：让搜索引擎快速收录网站页面解决办法
免责声明：文章《让搜索引擎快速收录网站页面解决办法》来至网络，文章表达观点不代表本站观点，文章版权属于原作者所有，若有侵权，请联系本站站长处理！

首页

服务

产品

方案

案例

资讯

演示

关于

让搜索引擎快速收录网站页面解决办法