25yicms利用ASP.NET(C#)+MSSQL技术全力打造功能最强大的营销型企业网站管理系统,企业做网站系统,做网站软件,提供div+css企业网站模板。
阅读内容

robots.txt设置只允许指定的蜘蛛抓取


时间:2014/12/28   来源:企业网站管理系统
 robots.txt设置只允许指定的蜘蛛抓取要怎么弄呢?首先我们新建一个文本文档并改名为 robots.txt(robots.txt文件是指Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。)。在robots.txt文件里主要包括3部分,分别是User-agent、Disallow和Allow。
 
User-agent是指允许的某个蜘蛛,比如我们允许百度蜘蛛进来,则写:User-agent: Baiduspider,如果是允许所有蜘蛛进来则是User-agent:*
Disallow是指不允许蜘蛛抓取的文件夹,Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录,  只需要把admin换成我们对应的文件即可
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

根据以方方法的robots.txt设置就可以只允许指定的蜘蛛抓取 。
点击次数:       打印此页  关闭
  • 相关文章:
  • {25yisql:sql row='10' titlelen='100' sql='select * from yi25_News order by newid()'}
  • [field:titlevalue/]
  • {/25yisql:sql}