Python WAF 规则的正则与 Lua 脚本编写

冷炫風刃

发布时间：2026-02-18 16:24:04

475人浏览过

来源于php中文网

原创

re.search 更安全，因其扫描整个字符串匹配恶意模式，而 re.match 仅从开头匹配易漏掉中间或末尾的攻击载荷，且需配合 re.dotall 和 re.ignorecase 等标志确保跨行、大小写不敏感匹配。

python waf 规则的正则与 lua 脚本编写

Python WAF 规则里写正则，为什么 `re.search` 比 `re.match` 更安全？

WAF 规则常要检测请求体或 header 里是否含恶意模式，比如 SQL 注入特征 ' OR 1=1。用 re.match 容易漏掉——它只从字符串开头匹配，而攻击载荷可能藏在中间或末尾。

re.search 扫描整个字符串，适合检测任意位置的关键词、编码绕过（如 %20OR%201%3D1）
注意默认不支持多行匹配，如果规则要跨 \n 检查（比如 POST body），得加 re.DOTALL 标志
避免用 ^ 和 $ 锚定，除非你明确只关心整行内容；WAF 输入不是“一行一请求”
正则本身要加 re.IGNORECASE，否则 union select 和 UNION SELECT 就漏一个

if re.search(r"(?i)union\s+select", payload, re.DOTALL):
    block_request()

Lua 脚本在 OpenResty WAF 中怎么访问原始请求体？

OpenResty 的 ngx.req.read_body() 不是自动触发的，很多规则写了 ngx.var.request_body 却返回空——因为 body 没被读取，或者被其他模块提前消费了（比如 lua_need_request_body on 没配，或用了 proxy_pass 后 body 被清空）。

必须在 access_by_lua_block 阶段调用 ngx.req.read_body()，不能只依赖配置项
读取后用 ngx.var.request_body 取值；若为空，检查是否被 client_max_body_size 截断，或是否超过 client_body_buffer_size 导致写入临时文件（此时要用 ngx.req.get_body_data() 或读文件）
请求体可能被编码（application/x-www-form-urlencoded 或 multipart/form-data），直接正则容易失效；简单场景可先用 ngx.unescape_uri 解码 URL 编码部分，复杂结构建议交给专用解析器

Python 和 Lua 规则共存时，URL 解码顺序不一致导致绕过

Python 规则通常在 WAF 入口层处理已解码的字符串（比如 Flask/Werkzeug 自动解码），而 Lua 在 Nginx 层看到的是原始字节流。同一段 payload %2527（即 %27 的二次编码），Python 可能解成 '，Lua 还是原样——规则如果只在 Lua 里写 %'%，就匹配不到。

Unreal Images

免费的AI图片库

下载

统一在最外层做一次标准解码：Lua 用 ngx.unescape_uri(ngx.var.args) 或对 body 做类似处理；Python 侧确认框架没多解一次（比如 Werkzeug 默认解一次，但某些中间件会再解）
不要依赖“自动解码”，显式控制解码轮数；二次编码绕过很常见，规则应覆盖 %2527、%u0027 等变体
如果用正则匹配，把常见编码形式全列进 pattern，比如 r"(%27|%2527|%u0027|\x27)"，别只写 '

性能敏感场景下，Lua 正则比 Python 快，但别滥用 `ngx.re.match`

OpenResty 的 ngx.re.match 是 PCRE 编译后复用的，确实比 Python 的 re 模块快；但它默认开启 JIT，遇到回溯型正则（比如 (a+)+b）可能卡住 worker 进程，引发超时或拒绝服务。

立即学习“Python免费学习笔记（深入）”；

写正则时禁用贪婪量词嵌套，用原子组或占有性量词（(?>...)）；实在不行，用字符串查找（string.find）代替复杂正则
Python 规则若跑在独立进程（如用 subprocess 调外部脚本），IPC 开销远大于正则本身，不如把逻辑移到 Lua 层
Lua 里不要在循环中反复编译正则，用 local re = require "resty.core.regex" + regex.new(..., "j") 预编译并缓存

规则越靠近网络边缘越高效，但越靠近业务逻辑越准确——平衡点往往不在语言本身，而在你愿不愿意为一次误报多写两行解码逻辑。

Python 中比较回调函数的正确方式：为什么 == 可行而 is 不可靠

Python nginx unit 的应用服务器角色

使用 Python 批量计算并填充 Excel 中按列分组的汇总值

Python 中比较绑定方法的正确方式：为什么 == 有效而 is 失败

为什么本地端口扫描比远程端口扫描快得多？

相关标签:

python lua sql nginx flask 中间件 String select require 字符串 union 循环 Regex var openresty

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 标准库 itertools 在组合问题中的高效用法下一篇：Django 多角色用户系统的统一认证与差异化登录实现指南

作者最新文章

edge的插件在哪个文件夹扩展存储路径说明

2026-02-16 13:27

Python CAPTCHA 的服务端验证实践

2026-02-16 13:28

Python 消息幂等消费的防重表设计

2026-02-16 13:29

Python 3.12+ 的新特性在生产代码中的逐步引入

2026-02-16 13:47

Python 批量文件重命名的工程化方案

2026-02-16 13:47

Python CSRF 防护的 double submit cookie 方案

2026-02-16 14:05

edge浏览器主页怎么设置启动时页面与新标签页配置步骤

2026-02-16 14:05

Linux tc mirred 的流量镜像与容器网络诊断实践

2026-02-16 14:08

腾讯会议电脑版官方下载官网

2026-02-16 14:17

Python ONNX Runtime 的 GPU 加速部署

2026-02-16 14:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

985

2023.10.12