0

0

php分割文本嵌套结构处理_php递归分割嵌套文本【步骤】

看不見的法師

看不見的法師

发布时间:2026-02-01 19:55:02

|

870人浏览过

|

来源于php中文网

原创

推荐用「计数+单次扫描」实现 splitByTopLevel 函数:初始化 depth=0,遍历字符时遇'('加1、')'减1,仅在 depth===0 且遇分隔符时切分,并需处理引号包裹、Unicode 标点、注释剔除及索引式递归避免字符串拷贝。

php分割文本嵌套结构处理_php递归分割嵌套文本【步骤】

preg_split 处理带括号嵌套的文本会直接崩

正则的 preg_split 无法识别括号层级,比如 "a(b(c)d)e" 想按最外层逗号或分号切分,但内容里有嵌套括号和逗号时,它只会机械匹配,结果错乱。这不是写得不够狠的问题,是正则本身不支持平衡组(PHP PCRE 默认不启用 (?R) 递归语法,且 preg_split 不接受递归模式)。

真正能稳住结构的,只有手写状态机或递归下降解析——而对嵌套文本分割,推荐用「计数+单次扫描」,不依赖正则回溯:

  • 初始化括号计数器 $depth = 0
  • 遍历每个字符,遇到 '(' 加1,')' 减1
  • 只在 $depth === 0 且当前字符是分隔符(如 ','';')时切分
  • 记得跳过字符串字面量里的括号(如有引号包裹,需额外跟踪引号状态)

写一个安全的 splitByTopLevel 函数要处理这几种边界

实际用的时候,光计数还不够。下面这个函数能应对常见干扰:

function splitByTopLevel($str, $delimiter = ',', $open = '(', $close = ')') {
    $parts = [];
    $start = 0;
    $depth = 0;
    $len = strlen($str);
    for ($i = 0; $i < $len; $i++) {
        $c = $str[$i];
        if ($c === '"' || $c === "'") {
            // 简单跳过引号内内容(不处理转义)
            $quote = $c;
            $i++;
            while ($i < $len && $str[$i] !== $quote) {
                if ($str[$i] === '\\' && $i + 1 < $len) $i++; // 跳过转义
                $i++;
            }
            continue;
        }
        if ($c === $open) $depth++;
        elseif ($c === $close) $depth--;
        elseif ($c === $delimiter && $depth === 0) {
            $parts[] = trim(substr($str, $start, $i - $start));
            $start = $i + 1;
        }
    }
    $parts[] = trim(substr($str, $start));
    return $parts;
}

注意点:

立即学习PHP免费学习笔记(深入)”;

文心大模型
文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

下载
  • 它不处理 Unicode 字符($str[$i] 在 UTF-8 下可能取到半个字符),如需多字节支持,改用 mb_substrmb_strlen 并逐码点遍历
  • 引号内的转义只跳过单层 \'\",不支持三重转义或 \\' 这类组合
  • 如果分隔符本身是多字符(如 '=>'),这个逻辑不适用,得换用有限状态机

递归解析嵌套结构时,别在每层都 substr 复制字符串

有人写递归函数,每次找到一对括号就 substr 提取中间内容再递归调用,看起来清晰,但 PHP 的字符串是值拷贝,深层嵌套下内存和时间开销陡增。更优做法是传入原字符串 + 当前起始/结束索引,用指针式偏移推进:

  • 入口函数先调用 parseFromIndex($str, 0)
  • 递归函数返回 ['node' => ..., 'endIndex' => ...],上层直接从 endIndex + 1 继续
  • 所有子节点共享同一份字符串内存,无复制
  • 调试时可加 $depth 参数辅助日志,但运行时避免拼接深度字符串

这种写法在解析 "func(a, b(c,d), e)" 类表达式时,性能差距可达 3 倍以上(尤其字符串 > 1KB 时)。

别忽略空格、注释和 Unicode 标点对分割的影响

真实文本里,分隔符前后常有空格、换行甚至中文顿号 或全角逗号 。硬编码 ',' 会漏掉这些。稳妥做法是把分隔逻辑抽出来:

  • 定义可接受的分隔符集合:如 [';', ',', ',', '、', "\n", "\t"]
  • ctype_space() 判断空白,而不是只认 ' '
  • 注释(如 ///* */)必须在计数前剔除,否则括号计数错位——建议预处理阶段用正则删注释,而非边扫边判
  • 若输入来自表单或 JSON,注意 \uFF0C(全角逗号)这类 Unicode 字符,strpos 无法匹配,得用 mb_strpos

嵌套文本分割不是纯算法题,它卡点永远在现实数据的毛边里:少一个引号转义、多一个不可见零宽空格、或者某处用了 SVG 路径语法里的括号——这些细节不显眼,但会让整个解析中途崩溃。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

422

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

537

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

361

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1503

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

625

2023.11.24

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.7万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号