网站被非法爬虫抓取导致带宽激增或数据泄露时,可启用防非法抓取屏蔽机制:一、用宝塔防火墙UA过滤屏蔽恶意蜘蛛;二、手动编辑Nginx配置文件添加if判断拦截;三、创建独立kill_bot.conf文件并全局引用,实现多站点复用与扩展识别。

如果您发现网站内容被大量非法采集或爬虫频繁抓取,导致带宽激增或数据泄露,则可能是由于未启用防非法抓取屏蔽机制。以下是实现该功能的多种具体方法:
一、通过宝塔防火墙的User-Agent过滤功能屏蔽垃圾蜘蛛
该方法利用宝塔免费防火墙内置的UA识别能力,对已知恶意爬虫的User-Agent字符串进行匹配并返回403拒绝响应,无需修改Nginx配置文件,操作快捷且生效迅速。
1、登录宝塔面板,在左侧菜单栏点击“软件商店”,搜索并安装“Nginx免费防火墙”(若已安装则跳过)。
2、安装完成后,点击“设置”进入防火墙配置页面。
3、在左侧导航栏中选择“User-Agent过滤”,点击右上角“添加规则”按钮。
4、在规则内容框中粘贴以下正则表达式:Baiduspider|baiduspider|sogouspider|sogou web|360spider|Bytespider|toutiao|Sosospider|YodaoBot|msnbot|Googlebot|Amazonbot|dataforseo|DataForSeoBot|semrush|babbar|mj12bot|116.0.0.0。
5、动作类型选择“禁止访问”,点击“提交”保存规则。
二、手动编辑Nginx配置文件屏蔽指定UA
该方法直接在站点Nginx配置中插入if判断逻辑,精准控制请求拦截行为,适用于无防火墙插件或需精细化管理的场景,兼容火车头等合法采集工具(需排除关键词)。
1、在宝塔面板左侧导航栏点击“网站”,找到目标站点,点击右侧“设置”按钮。
2、在设置页面左侧点击“配置文件”,定位到server块内、location段之前的位置。
3、插入如下代码段(注意缩进与语法正确性):
if ($http_user_agent ~* "Baiduspider|sogouspider|360spider|Bytespider|toutiao|YodaoBot|msnbot|Googlebot|Amazonbot|semrush|mj12bot") { return 403; }。
4、点击右上角“保存”按钮,确认配置写入成功。
5、返回宝塔首页,点击左侧“软件商店”,找到“Nginx”,点击“重启”以使配置生效。
三、创建独立屏蔽规则文件并全局引用
该方法将屏蔽规则集中维护于外部.conf文件,便于多站点复用和版本管理,避免重复编辑各站点配置,同时支持扩展扫描工具与异常客户端识别。
1、使用宝塔文件管理器,进入目录/www/server/nginx/conf/。
2、点击右上角“新建文件”,命名为kill_bot.conf。
3、双击打开该文件,在其中粘贴完整屏蔽规则,包括垃圾蜘蛛与扫描工具两部分:#禁止垃圾搜索引擎蜘蛛抓取\nif($http_user_agent~*"CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|EasouSpider|LinkpadBot|Ezooms") { return 403; break; }\n#禁止扫描工具客户端\nif($http_user_agent~*"crawl|curb|git|Wtrace|Scrapy") { return 403; break; }。
4、返回目标站点“配置文件”页面,在#SSL-START注释上方空白行插入:include kill_bot.conf;。
5、保存配置文件后,重启Nginx服务。










