屏蔽垃圾蜘蛛爬虫减轻服务器压力

评论

我们在查看网站蜘蛛爬虫访问日志的时候,总能看到一些不知名的蜘蛛爬虫频繁抓取我们的网站,特别是服务器配置不高的情况下,那么如何屏蔽这些垃圾蜘蛛减轻服务器压力呢?

屏蔽垃圾蜘蛛爬虫减轻服务器压力

屏蔽这些垃圾蜘蛛爬虫之前,我们需要知道一些有用的蜘蛛爬虫,比如下面这些比较常见的搜索引擎爬虫:

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

必应蜘蛛:bingbot

360蜘蛛:360Spider

搜狗蜘蛛:Sogou web spider

屏蔽蜘蛛抓取的三种方法:

  1. Robots屏蔽
  2. UA屏蔽
  3. IP屏蔽

一般我们都是通过Robots屏蔽这个方法,Robots 协议(也称为爬虫协议、机器人协议等)用来告诉搜索引擎、爬虫哪些页面可以抓取,哪些页面不能抓取。

常见垃圾蜘蛛:

  • AhrefsBot:通过抓取网页建立索引库,并提供反向链接分析和服务
  • dotbot:在线营销分析软件
  • MJ12bot:英国搜索引擎
  • Deusu:个人的项目一个搜索引擎
  • grapeshot:这家公司好像也是分析网站用的

屏蔽方式如下:

在robots.txt目录下添加下面的代码,添加之后再用百度站长平台检测一下robots是否正确。

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DeuSu
Disallow: /
User-agent: grapeshot
Disallow: /

 
  • 本文由 980b云主机 发表于 2022-08-05
  • 转载请务必保留本文链接:https://www.980b.cn/123.html

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: