标签与后续内容分组为嵌套数组
" />
本文介绍如何使用 php 将混合 html 字符串(含多个 `
` 及其后续 `
` 等标签)按语义逻辑分组:每个 `
` 作为新分组的起始,其后直到下一个 `` 前的所有元素归入同一子数组。
在构建 FAQ 列表、文档解析或 CMS 内容结构化等场景中,常需将扁平的 HTML 片段(如
标题 +
描述)转换为结构化数据。核心思路是:以 为分组锚点,动态创建子数组,并将后续非
。 元素追加至当前组,直到遇到下一个
以下是一个简洁可靠的 PHP 实现:
$input = [
"While registration its showing email address already exists
",
"You can use one email address
",
"While registration its showing
",
"The usernames are unique.
立即学习“前端免费学习笔记(深入)”;
",
];
$outputArray = [];
$groupIndex = -1;
foreach ($input as $html) {
if (str_contains($html, '')) {
$groupIndex++;
$outputArray[$groupIndex] = []; // 初始化新分组
}
// 无论是否为 h2,都追加到当前组(确保 h2 自身也被包含)
$outputArray[$groupIndex][] = $html;
}
// 输出示例:
// [
// ["While registration...
", "
You can use...
"],
// ["While registration...
", "The usernames...
"]
// ]✅ 关键说明:
- str_contains($html, '
') 是 PHP 8.0+ 推荐写法;若使用低版本,请替换为 strpos($html, '
') !== false。
- $groupIndex 初始设为 -1,首次匹配
时自增为 0,确保索引从 0 开始,避免空首项。
- 每个
行自身也存入对应子数组 —— 这是生成最终 ques/ans 对的基础(后续可配合 strip_tags() 提取纯文本)。
? 进阶建议(生成 FAQ 对象):
若需直接输出类似问题中所需的 [{ 'ques': ..., 'ans': ... }] 结构,可在分组后进一步处理:
$faq = [];
foreach ($outputArray as $group) {
$ques = strip_tags($group[0]); // 提取第一个 的文本
$ans = '';
for ($i = 1; $i < count($group); $i++) {
$ans .= strip_tags($group[$i]) . ' ';
}
$faq[] = [
'ques' => trim($ques),
'ans' => trim($ans)
];
}
该方案健壮、易读、无依赖,适用于服务端 HTML 内容预处理,是构建结构化文档或知识库的理想起点。











