网站反爬虫防护
华为云 Web应用防火墙 WAF保护网站等Web应用程序免受常见Web攻击,保障业务持续稳定运行,满足合规和监管要求。对网站业务流量进行多维度检测和防护,避免网站被黑客恶意攻击和入侵。
业务趋势分析。 通过配置反爬虫防护策略阻止爬虫攻击 Web应用防火墙可以通过Robot检测(识别User-Agent)、网站反爬虫(检查浏览器合法性)和CC攻击防护(限制访问频率)反爬虫策略,帮您解决业务网站遭受的爬虫问题。 WAF接入配置最佳实践 网站接入WAF后,需要把DNS
问者对您的网站上特定路径(URL)的访问频率,WAF会根据您配置的规则,精准识别CC攻击以及有效缓解CC攻击。 精准访问防护规则 精准访问防护策略可对HTTP首部、Cookie、访问URL、请求参数或者客户端IP进行条件组合,定制化防护策略,为您的网站带来更精准的防护。 说明:防
DDoS高防购买指南 网站类业务接入指南 网站类业务接入指南 非网站类业务接入指南 非网站类业务接入指南 DDoS高防续费指南 DDoS高防续费指南 DDoS高防购买指南 DDoS高防购买指南 网站类业务接入指南 网站类业务接入指南 非网站类业务接入指南 非网站类业务接入指南 DDoS高防续费指南
边缘安全 EdgeSec 基于CDN边缘节点提供的DDoS 防护、CC 防护、WAF 防护等安全防护服务,全方位保障内容分发业务和全站加速业务的安全 基于CDN边缘节点提供的DDoS 防护、CC 防护、WAF 防护等安全防护服务,全方位保障内容分发业务和全站加速业务的安全 购买 控制台
安全与合规 特惠专区 安全与合规 特惠专区 低成本构筑安全防护体系,满足等保合规要求 立即抢购 DDoS原生防护重磅升级 DDoS原生防护重磅升级 无限次防护,提供更灵活的购买周期,支持T级防护 无限次防护,提供更灵活的购买周期,支持T级防护 了解详情 Web应用防火墙 实战视频 Web应用防火墙
看是否设置垃圾短信拦截。 详细步骤 收起 展开 开启主机防护 收起 展开 步骤 ① 在左侧导航栏中,选择“主机管理”,勾选所有待开启防护的弹性云服务器,在列表上方,单击“开启防护”,批量开启主机防护。 ② 在弹出的“开启防护”对话框中,您可以根据需要选择“计费模式”和“主机安全版
超低成本 免费DDoS基础防护,有效节约用户投资;易用,内置专业防护模板,防护阈值自助配置 免费DDoS基础防护,有效节约用户投资;易用,内置专业防护模板,防护阈值自助配置 功能描述 畸形包、探测包过滤 基于RFC等网络协议标准进行畸形包过滤,以及各种扫描探测型攻击防护 基于RFC等网络
,保护您的主机 容器安全 通过容器资产管理、应用安全、镜像安全、集群安全、容器运行时安全等能力,提供容器全生命周期防护 网页防篡改 通过静态、动态网页防护,保护网站的网页、电子文档、图片等文件不被黑客篡改 最新动态:3月华为云主机安全新版本上线 本次版本增强容器应用漏洞扫描、主机
绿盟网站安全防护服务(vWAF),是绿盟科技针对公有云场景,以虚拟化设备形态为核心的安全服务,全面防护企业客户部署在公有云上的Web业务。绿盟网站安全防护服务(vWAF),是绿盟科技针对公有云场景,以虚拟化设备形态为核心的安全服务,全面防护企业客户部署在公有云上的Web业务。核心
中云网安"AI防护者"开创性应用AI学习,颠覆传统网络安全“黑名单防护模式”,自动识别应用逻辑,建立动态模型,实现原生安全。我们的解决方案是通过AI 防护者,形成全面的Web安全防护策略。AI 防护者采用协议解析引擎、行为识别引擎、数据矩阵引擎、威胁分类引擎和多级决策引擎,从动态
买说明】一、网络数据泄露防护网络数据泄露防护 1000:最大处理能力为1000M网络数据泄露防护 2000:最大处理能力为2G网络数据泄露防护 5000:最大处理能力为5G网络数据泄露防护 8000:最大处理能力为10G二、邮件数据泄露防护邮件数据泄露防护 1000:最大处理能力
,将数据防护焦点聚集在重要数据资产上,对不同重要程度数据资产施行不同强度的防护手段,帮助用户精准防护企业数据资产。同时支持用户对外发数据进行权限控制,保护脱离企业内网环境的数据文档安全可控,实现安全与效率共存,轻松保障数据资产安全。3、敏感信息泄露防护:敏感信息泄露防护能够智能识
敏感度差异,并确定数据级别。数据分级有助于行业机构根据数据不同级别,确定数据在其生命周期的各个环节应采取的数据安全防护策略和管控措施,进而提高机构的数据管理和安全防护水平,确保数据的完整性、保密性和可用性。从隐私安全与保护成本的角度出发,具体等级定义可分为以下几种:(1)敏感数据
,针对网站高并发,DDOS流量攻击CC攻击WEB攻击等安全事件拥有丰富的方案经验。产品亮点有效解决黑客控制僵尸网络对服务器发起的流量攻击造成服务器IP被封、带宽被打满等现象,100%清洗SYN Flood、UDP Flood、ICMP Flood等攻击流量。 CC攻击防护 有效解
注册、网页后门、SQL注入、XSS等攻击。商品核心功能和服务: Web防护:支持自定义不同的防护方案,实现快速切换。包括防护模式选择、指定全站防护、或基于源IP和访问路径的精细化防护、以及客户端特征检查开关和威胁情报库查询开关等。 防机器人:简单脚本或
牌形象升华。 (3)集团型网站 集团多个网站不再是一个个“孤岛”存在,而是构建一套网站集群,互联互通,内外互通。让大企业得以充分利用互联网优势。 (4)外贸型网站 外贸企业不仅是多语,更多是符合当地的营销传播特点,以及浏览习惯,文化特色。为您提供从网站与社区整合、沟通工具运用一体化的外贸方案。
包括了篡改防护,保存在线,网站更新,可实现对网站页面的静态保护,有效防止网站页面被篡改而造成重大影响。具有自主研发的网站幻象技术,能够使访问者无法看到真实的网站内容,始终对外展示某一时间点的网站幻象,保护网站内容安全。5,防病毒:防病毒包含了网络病毒攻击的查杀,病毒防护记录,可实现对
通过自定义规则识别并阻断JS脚本爬虫行为。 立即购买 立即体验 配置网站反爬虫,拦截恶意BOT攻击 如何配置网站反爬虫防护规则? 您可以通过配置网站反爬虫防护规则,防护搜索引擎、扫描器、脚本工具、其它爬虫等爬虫,以及自定义JS脚本反爬虫防护规则。 说明:如果您已开通企业项目,您需要在“企业项目”下拉列表中选择您所
支持 ✔ 支持 网站反爬虫防护 ✘ 不支持 ✘ 不支持 ✔ 支持 ✔ 支持 IPv6防护 ✘ 不支持 ✘ 不支持 ✔ 支持 ✔ 支持 规格定制 ✘ 不支持 ✘ 不支持 ✘ 不支持 ✔ 支持 防护域名 10个防护域名 (最多支持1个一级域名) 10个防护域名 (最多支持1个一级域名)
开启WAF防护 02:31 如何快速开启Web应用防火墙 WAF防护 开启WAF防护 如何快速开启Web应用防火墙 WAF防护 配置防护策略(黑白名单) 01:54 快速配置防护策略(IP黑白名单) 配置防护策略(黑白名单) 快速配置防护策略(IP黑白名单) 配置防护策略(CC攻击)
更多内容请参见如何在添加域名中配置防护域名? 添加防护域名时,如何配置非标端口? 端口为实际防护网站的端口,端口配置说明如下: • “对外协议”选择“HTTP”时,WAF默认防护“80”标准端口的业务;“对外协议”选择“HTTPS”时,WAF默认防护“443”标准端口的业务。 •
Web应用防火墙WAF包含了Web基础防护、HTTP/HTTPS业务防护、CC攻击防护、非表端口防护、网站反爬虫等功能特性,每一个功能都从不同维度提升Web服务的安全性,通过Web应用防火墙,轻松应对各种Web安全风险,不同版本支持的功能详情请参见版本功能差异说明。 功能名称 功能描述 Web基础防护 覆盖OWASP(Open
WAF——“CDN+WAF”联动,提升网站防护能力和访问速度 CDN+WAF可以对华为云、非华为云或云下的域名进行联动防护,同时提升网站的响应速度和网站防护能力。 Web应用防火墙 WAF——通过配置反爬虫防护策略阻止爬虫攻击 Web应用防火墙可以通过Robot检测(识别User-Agent)、网站反爬虫(检查
bshell检测、深度反逃逸检测等Web基础防护。 ○ 网站反爬虫的“特征反爬虫”规则 可防护搜索引擎、扫描器、脚本工具、其它爬虫等爬虫。 ● 添加或修改防护规则后,规则生效需要等待几分钟。规则生效后,您可以在“防护事件”页面查看防护效果。 ● 您可以通过处理误报事件来配置全局白
进入Web应用防火墙管理控制台(Console),点击左侧“网站设置”,“防护策略”中【配置防护策略】,将Web基础防护的状态设置为【拦截】模式,并把状态打开。 Step2:防护策略-Web基础防护-高级设置 点击"防护配置-Web基础防护”中的“高级设置”,将 “防护配置”中防护等级配置成【中等】,并将【常规
在左侧导航树中,选择“网站设置”,进入“网站设置”页面。 5.(旧版)在目标域名所在行的“防护策略”栏中,单击“配置防护策略”,进入“防护策略”页面。 6.(新版)在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面。 图1 域名列表 7. 在“Web基础防护”配置框
网站反爬虫防护
您可以通过配置BOT防护规则,防护搜索引擎、扫描器、脚本工具、其它爬虫等爬虫,以及自定义JS脚本反爬虫防护规则。
前提条件
已添加防护网站,详情操作请参见添加防护网站 。
约束条件
- 本功能依赖浏览器的Cookie机制、JavaScript解析能力,如果客户端浏览器不支持Cookie,此功能无法使用。
- 添加或修改防护规则后,规则生效需要等待几分钟。规则生效后,您可以在“防护事件”页面查看防护效果。
- 如果您的业务接入了 CDN 服务,请谨慎使用此功能。
BOT管理功能介绍
按照检测执行顺序,BOT管理支持以下功能。
已知BOT检测
“已知BOT检测”是BOT检测的第一环节,它根据用户请求中携带的UA关键字,与BOT管理中的UA特征库进行比对。如果请求来自某种已知BOT(已知客户端),则按照配置的防护动作处置该请求。
基于互联网开源的UA特征情报,结合网站反爬虫的UA特征库,边缘安全支持10类已知BOT检测。
类型 |
说明 |
---|---|
搜索引擎机器人 |
搜索引擎利用网络爬虫聚合并索引在线内容(如网页、图像及其他类型的文件),为用户提供实时信息。 |
网络扫描器 |
病毒/ 漏洞扫描 器旨在评估和发现网络资产中是否存在病毒或因配置错误、编程缺陷而产生的漏洞。比较典型的扫描器有Nmap、Sqlmap、WPSec等。 |
网页抓取工具 |
在网络上流行的爬虫工具或服务,常用于抓取任何网页并提取内容以满足使用者的需求。如Scrapy、pyspider、Prerender等。 |
网站开发和监控服务机器人 |
一些公司利用机器人提供服务,帮助Web开发人员监控他们的站点,以确保它们正常运行。这些机器人可以检查链接和域名的可用性、来自不同地理位置的连接和网页加载时间、DNS解析问题及其他一些功能。 |
商业分析和营销机器人 |
SEO优化网站或网页在搜索引擎结果中的排序。许多提供SEO服务的公司,同时也利用机器人为用户评估网站内容,提供受众和竞争分析,支撑在线广告的投放和市场营销。 |
新闻和社交媒体机器人 |
新闻和社交媒体平台允许用户在线浏览热点资讯、分享想法和互动交流,许多企业的营销策略包括在这些网站上运营页面,与消费者就产品或服务进行互动。一些公司会利用机器人从这些平台中收集数据,用于媒体趋势和产品的洞察,丰富网络体验。 |
屏幕快照机器人 |
一些公司利用机器人对外提供网站截图服务。它可以对网站、社交网络上的帖子、新闻、论坛/博客上的帖子等在线内容进行完整的长屏幕截图。 |
学术和研究机器人 |
有些大学和公司会使用机器人从各种网站收集数据,用于学术或研究目的,包括参考文献搜索、语义分析、特定类型的搜索引擎等。 |
RSS提要阅读器 |
有些大学和公司会使用机器人从各种网站收集数据,用于学术或研究目的,包括参考文献搜索、语义分析、特定类型的搜索引擎等。 |
网络存档机器人 |
一些组织会使用机器人定期从网络中爬取并存档有价值的在线信息和内容副本,例如维基百科。这些网络存档服务与搜索引擎非常相似,但是提供的数据并不是最新的,它们的目的主要是用于研究。 |
请求特征检测
“请求特征检测”是BOT检测的第二环节,它通过识别用户请求中的HTTP请求头域特征,匹配主流的开发框架和HTTP库、仿冒已知BOT、自动化程序来进行检测。如果请求符合某类BOT特征,则按照配置的防护动作处置该请求。
类型 |
说明 |
---|---|
HTTP请求头域检测 |
异常的请求头。 |
开发框架和HTTP库 |
主流的开发框架和HTTP库,如Apache HttpComponents、OKHttp、Python-requests、Go-http-client等。 |
其他 |
|
BOT行为检测
“BOT行为检测”是BOT检测的第三环节,通过AI智能防护引擎对请求进行分析和自动学习,根据设置的行为检测评分和防护动作处置该攻击行为。
JS脚本反爬虫检测机制
JS脚本检测流程如图1所示,其中,①和②称为“js挑战”,③称为“js验证”。
开启JS脚本反爬虫后,当客户端发送请求时,会返回一段JavaScript代码到客户端。
- 如果客户端是正常浏览器访问,就可以触发这段JavaScript代码再发送一次请求,即边缘安全完成js验证,并将该请求转发给源站。
- 如果客户端是爬虫访问,就无法触发这段JavaScript代码再发送一次请求,即边缘安全无法完成js验证。
- 如果客户端爬虫伪造了认证请求,发送到边缘安全时,会拦截该请求,js验证失败。
通过统计“js挑战”和“js验证”,就可以汇总出JS脚本反爬虫防御的请求次数。例如,图2中JS脚本反爬虫共记录了18次事件,其中,“js挑战”(EdgeSec返回JS代码)为16次,“js验证”(EdgeSec完成JS验证)为2次,“其他”(即爬虫伪造EdgeSec认证请求)为0次。

“js挑战”和“js验证”的防护动作为仅记录,EdgeSec不支持配置“js挑战”和“js验证”的防护动作。
配置BOT管理防护规则
已知BOT检测
- 单击“已知BOT检测”模块,单击防护规则左侧
图标,选择所需检测项,打开“启用状态”开关。
开启后,默认配置如图5所示。 - 根据实际业务需要,启用或关闭对应规则,配置防护动作。
防护动作说明如下:
- “仅记录”:仅记录满足特征的请求。
- “JS挑战”:识别到特征后,边缘安全向客户端返回一段正常浏览器可以自动执行的JavaScript代码。如果客户端正常执行了JavaScript代码,则边缘安全在一段时间(默认30分钟)内放行该客户端的所有请求(不需要重复验证),否则阻断请求。
请求的Referer跟当前的Host不一致时,JS挑战不生效。
- “拦截”:识别到特征后,将直接被拦截。
- “放行”:放行满足特征的请求。
请求特征检测
- 单击“请求特征检测”模块,单击防护规则左侧
图标,选择所需检测项,打开“启用状态”开关。
开启后,默认配置如图6所示。 - 根据实际业务需要,启用或关闭对应规则,配置防护动作。
防护动作说明如下:
- “仅记录”:仅记录满足特征的请求。
- “JS挑战”:识别到特征后,边缘安全向客户端返回一段正常浏览器可以自动执行的JavaScript代码。如果客户端正常执行了JavaScript代码,则边缘安全在一段时间(默认30分钟)内放行该客户端的所有请求(不需要重复验证),否则阻断请求。
请求的Referer跟当前的Host不一致时,JS挑战不生效。
- “拦截”:识别到特征后,将直接被拦截。
- “放行”:放行满足特征的请求。
BOT行为检测
- 单击“BOT行为检测”模块,打开“AI行为检测”开关。
开启后,默认配置如图7所示。
- 根据实际业务需要,设置三个行为检测评分区间。评分区间为0~100,评分越接近0分表示请求特征越像正常请求,越接近100表示请求特征越像BOT。
- 为每个区间配置防护动作。
防护动作说明如下:
- “仅记录”:仅记录满足特征的请求。
- “JS挑战”:识别到特征后,边缘安全向客户端返回一段正常浏览器可以自动执行的JavaScript代码。如果客户端正常执行了JavaScript代码,则边缘安全在一段时间(默认30分钟)内放行该客户端的所有请求(不需要重复验证),否则阻断请求。
请求的Referer跟当前的Host不一致时,JS挑战不生效。
- “拦截”:识别到特征后,将直接被拦截。
- “放行”:放行满足特征的请求。
配置JS脚本反爬虫
- 登录管理控制台。
- 单击页面左上方的
,选择“CDN与智能边缘 > CDN与安全防护”。
- 在左侧导航栏选择“安全防护 > 域名接入”,进入“安全防护”的“域名接入”页面。
- 在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面。
图8 网站列表
- 在“BOT管理”配置框中,用户可根据自己的需要参照图9更改BOT管理的“状态”,单击“BOT设置”,进入BOT管理配置页面。
- 选择“JS脚本反爬虫”页签,用户可根据业务需求更改JS脚本反爬虫的“状态”和“防护模式”。
默认关闭JS脚本反爬虫,单击
,在弹出的“警告”提示框中,单击“确定”,开启JS脚本反爬虫
。
JS脚本反爬虫规则提供了三种防护动作:
- 拦截:JavaScript挑战失败后,立即阻断并记录。
- 仅记录:JavaScript挑战失败后,只记录不阻断。
- 人机验证:JavaScript挑战失败后,以验证码的形式进行验证。
- 根据业务配置JS脚本反爬虫规则,相关参数说明如表1所示。
JS脚本反爬虫规则提供了“防护所有请求”和“防护指定请求”两种防护动作。
表1 JS脚本反爬虫参数说明 参数
参数说明
示例
规则名称
自定义规则名称。
EdgeSec
规则描述
可选参数,设置该规则的备注信息。
-
生效时间
立即生效。
立即生效
条件列表
条件设置参数说明如下:
- 字段:在下拉列表中选择需要防护的字段,当前仅支持“路径”、“User Agent”。
- 子字段
- 逻辑:在“逻辑”下拉列表中选择需要的逻辑关系。
说明:
选择“包含任意一个”、“不包含所有”、“等于任意一个”、“不等于所有”、“前缀为任意一个”、“前缀不为所有”、“后缀为任意一个”或者“后缀不为所有”时,“内容”需要选择引用表名称,创建引用表的详细操作请参见创建引用表。
- 内容:输入或者选择条件匹配的内容。
“路径”包含“/admin/”
优先级
设置该条件规则检测的顺序值。如果您设置了多条规则,则多条规则间有先后匹配顺序,即访问请求将根据您设定的优先级依次进行匹配,优先级较小的规则优先匹配。
5
相关操作
- 若需要修改添加的JS脚本反爬虫规则,可单击待修改的路径规则所在行的“编辑”,修改该规则。
- 若需要删除添加的JS脚本反爬虫规则时,可单击待删除的路径规则所在行的“删除”,删除该规则。
配置示例-搜索引擎
放行百度或者谷歌的搜索引擎,同时拦截百度的POST请求。
- 参照步骤 1将“搜索引擎机器人”设置为放行,即将“搜索引擎机器人”的“状态”设置为
。
- 参照配置精准访问防护规则配置如图12的规则。
网站反爬虫防护常见问题
更多常见问题 >>-
华为云Web应用防火墙WAF对网站业务流量进行多维度检测和防护,结合深度机器学习智能识别恶意请求特征和防御未知威胁,防范常见Web攻击,Web攻击检测拦截,全面避免网站被黑客恶意攻击和入侵,网站反爬虫,防BOT,BOT防护
-
越来越多的企业开始开通自己的网站,如果想要保证自己的网站建设有保障,其实企业网站服务器租用还是应该谨慎一些。
-
华为云Web应用防火墙介绍了Web应用防火墙应用场景、Web应用防火墙产品优势、Web应用防火墙最佳实践、Web应用防火墙如何检测并拦截SQL注入风险、XSS跨站脚本攻击等Web攻击、Web应用防火墙支持防护的攻击类型、Web应用防火墙是否支持跨云防护等问题,以及相关文档推荐。
-
GaussDB是华为自主创新研发的分布式关系型数据库。具备企业级复杂事务混合负载能力,同时支持分布式事务,同城跨AZ部署,数据0丢失,支持1000+节点的扩展能力,PB级海量存储。
-
华为云Web应用防火墙WAF对网站业务流量进行多维度检测和防护,结合深度机器学习智能识别恶意请求特征和防御未知威胁,防范常见Web攻击,Web攻击检测拦截,全面避免网站被黑客恶意攻击和入侵,开启WAF防护
-
用户可通过Web应用防火墙配置CC攻击的防护策略。开启WAF防护后,可根据需要对防护域名的URL进行CC攻击防护的配置。
更多相关专题
增值电信业务经营许可证:B1.B2-20200593 | 域名注册服务机构许可:黔D3-20230001 | 代理域名注册服务机构:新网、西数