Skip to content

关于如何降低网络爬虫速度的问题

今日收到空间商通知,由于Google爬行速度太快,不得不禁止掉他的ip以减轻服务器负载。我不得不寻找方法降低Google爬虫在我的网站的爬行速度。以下是参考:
YAHOO 的解决办法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20

解释
由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的值,Visit-time为允许访问的时间段。

没找到Google这方面的资料,只能登录Google网站管理员工具进行设置限制了!

网络爬虫 php(5)防止网络爬虫的方法(1)网络爬虫 服务器负载(1)php 网络 速度(1)禁止爬虫 php(1)PHP网络爬虫(4)PHP 爬虫(10)php user-agent 爬虫(1)网络爬虫 爬行网页统计(1)如何看服务器爬虫的记录(3)如何禁止 网络爬虫(1)防止网络爬虫(1)viagra(1)google网络爬虫(1)爬虫 速度(1)

Share in Google Reader Share in Google Reader 分享到 FriendFeed 分享到 FriendFeed 推荐到豆瓣 推荐到豆瓣 分享到 Twitter 分享到 Twitter

Post a Comment

Your email is never published nor shared. Required fields are marked *
*
*