【引自Felomeng的博客】在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。只是它存在一个效率问题，下载速度可能很慢。这是两方面的原因造

资料来源：网络整理时间：2023/2/14 0:39:46 共计：3655 浏览

Q:发现有时候，百度抓取非常频繁，会导致服务器压力过大。如何限制他们的抓取频率？

nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次，多余的抓取请求返回503。
nginx的配置：

全局配置

limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;

某个server中

limit_req zone=anti_spider burst=5 nodelay;
if ($http_user_agent ~* "baiduspider") {
set $anti_spider $http_user_agent;
}

参数说明：
指令limit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。
指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
指令limit_req 中的 nodelay 表示当已经达到burst值时，再来新请求时，直接返回503
IF部分用于判断是否是百度蜘蛛的user agent。如果是，就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

版权说明：
本网站凡注明“广州京杭原创”的皆为本站原创文章，如需转载请注明出处！
本网转载皆注明出处，遵循行业规范，如发现作品内容版权或其它问题的，请与我们联系处理！
欢迎扫描右侧微信二维码与我们联系。

·上一条：asp.net(c#)捕捉搜索引擎蜘蛛和机器人 | ·下一条：用C#实现蜘蛛/爬虫程序的多线程控制