0

0

使用PHP正则表达式安全解析自定义Liquid风格标签

心靈之曲

心靈之曲

发布时间:2025-09-29 12:35:46

|

207人浏览过

|

来源于php中文网

原创

使用PHP正则表达式安全解析自定义Liquid风格标签

本文将指导您如何使用PHP正则表达式安全地解析和转换自定义的{%github user/repo %} Liquid风格标签,将其转换为标准的GitHub链接。通过采用精确的正则表达式和preg_match_all函数,可以有效避免贪婪匹配问题,并确保提取的数据格式正确且安全,从而构建一个健壮的标签解析机制。

在内容管理系统或模板引擎中,我们经常需要解析自定义的标签,例如将{%github user/repo %}这样的标记转换为标准的html链接repo。然而,在实现这一功能时,如果正则表达式构造不当,可能会导致安全漏洞或不准确的解析结果。

初始尝试与常见陷阱

一个常见的错误是使用过于宽泛的正则表达式,例如利用.*?(非贪婪匹配)来捕获标签内容。考虑以下代码片段:

function parseliquid($string)
{
    $regexp = '/\{%github (.*?)%\}/'; // 这里的(.*?)是问题所在
    preg_match($regexp, $string, $matches);
    return $matches;
}

var_dump(parseliquid("## Hello {%github isn't/safe {%github repo/user %} %}"));

当输入字符串为## Hello {%github isn't/safe {%github repo/user %} %}时,我们期望提取的是repo/user,但实际输出却是:

array(2) {
  [0]=> string(41) "{%github isn't/safe {%github repo/user %}"
  [1]=> string(30) "isn't/safe {%github repo/user "
}

问题在于.*?虽然是非贪婪的,但它会匹配从第一个{%github到第一个%}之间的所有字符。在存在嵌套或多个相似模式时,它无法智能地识别出我们真正想要捕获的特定格式内容。更重要的是,.*?允许匹配任何字符,这可能导致注入不安全的内容,从而带来潜在的安全风险。

构建健壮且安全的解析函数

为了解决上述问题,我们需要一个更精确的正则表达式,它不仅能正确捕获目标内容,还能通过模式匹配对内容进行初步的格式验证,从而提高安全性。

立即学习PHP免费学习笔记(深入)”;

Mapify
Mapify

Mapify是由Xmind推出的AI思维导图生成工具,原名ChatMind

下载

以下是一个推荐的解决方案,它使用preg_match_all函数和更严格的正则表达式:

...) : 命名捕获组,名为 'repo'
    // [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于用户名或仓库名)
    // \/ : 匹配字面量斜杠
    // [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于仓库名)
    // \s+\} : 匹配一个或多个空格和字面量 %}
    \preg_match_all('/\{\%github\s(?[a-z0-9-_]+\/[a-z0-9-_]+)\s+\}/', $value, $matched);

    // 检查是否成功捕获到 'repo' 命名组
    if (!isset($matched['repo'])) {
        return [];
    }

    // 使用 array_map 将捕获到的仓库名称转换为完整的GitHub URL
    return \array_map(static fn ($item) => 'https://github.com/'.$item, $matched['repo']);
}

// 示例用法
$inputString = '{%github isnt/safe %} {%github repo/user1-test %} This is another tag {%github my-org/my-project %}';
\var_dump(getRepositoryNames($inputString));

代码解析:

  1. preg_match_all: 这个函数用于在字符串中查找所有匹配正则表达式的子串,而不是只找第一个。这对于处理多个自定义标签的场景至关重要。
  2. 正则表达式 /\{\%github\s(?[a-z0-9-_]+\/[a-z0-9-_]+)\s+\}/:
    • \{\%github\s: 精确匹配字面量{%github后跟一个空格。\用于转义特殊字符{和%。
    • (?...): 这是一个命名捕获组。它将匹配到的内容存储在一个名为repo的数组键下,方便后续访问。
    • [a-z0-9-_]+\/[a-z0-9-_]+: 这是整个正则表达式中最关键的部分。它定义了GitHub仓库名称的预期格式
      • [a-z0-9-_]+: 匹配一个或多个小写字母、数字、连字符或下划线。这通常是GitHub用户名或仓库名的有效字符集。
      • \/: 匹配字面量斜杠/,用于分隔用户名和仓库名。
      • [a-z0-9-_]+: 再次匹配一个或多个有效字符,用于仓库名。
    • \s+\}: 匹配一个或多个空格后跟字面量%}。
  3. $matched['repo']: preg_match_all会将所有命名捕获组的内容存储在 $matched 数组中,键名即为捕获组的名称。
  4. array_map: 这个函数将 $matched['repo'] 数组中的每个仓库名称作为参数,传递给一个匿名函数。匿名函数负责将每个仓库名称前加上 https://github.com/,从而生成完整的GitHub URL。

示例输出:

array(3) {
  [0]=> string(28) "https://github.com/isnt/safe"
  [1]=> string(34) "https://github.com/repo/user1-test"
  [2]=> string(36) "https://github.com/my-org/my-project"
}

注意事项与总结

  • 安全性提升: 通过限制捕获组(?[a-z0-9-_]+\/[a-z0-9-_]+)的匹配模式,我们确保了只有符合特定格式(即有效的GitHub user/repo格式)的字符串才会被提取。这大大降低了恶意注入或意外解析错误数据的风险。
  • 精确匹配: 该方法避免了.*?可能导致的贪婪匹配问题,确保了在复杂字符串中也能准确提取所需内容。
  • 灵活性: preg_match_all可以轻松处理字符串中出现的多个自定义标签。
  • 扩展性: 如果需要支持其他类型的Liquid风格标签(例如{%youtube video_id %}),可以根据需要修改或添加新的正则表达式。
  • 输出编码: 如果将解析后的URL直接嵌入到HTML中,请务必使用htmlspecialchars()等函数对URL进行适当的HTML实体编码,以防止跨站脚本(XSS)攻击。

通过采用这种结合了精确正则表达式和preg_match_all的策略,我们可以构建一个既安全又高效的PHP函数,用于解析和转换自定义的Liquid风格标签。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

514

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

251

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

746

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

215

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

236

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

532

2023.12.06

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

8

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.1万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号