xsl:analyze-string 是 XSLT 2.0 中基于正则表达式进行模式匹配与结构化提取的核心指令,可区分匹配/非匹配部分并分别处理,支持捕获组、标志位及多场景文本解析。

xsl:analyze-string 是 XSLT 2.0 中专门用于**基于正则表达式对字符串做模式匹配和结构化提取**的核心指令,比简单替换或分隔更强大——它能识别多个匹配、区分匹配与非匹配部分,并分别处理。
基本结构:匹配 + 分组 + 分支处理
它不是“返回结果”,而是**遍历文本,按正则触发两类模板**:
- 匹配成功时(xsl:matching-substring),可访问捕获组(regex-group(1)等);
- 未匹配部分(xsl:non-matching-substring),原样保留或加工。
示例:从日志行中提取时间、级别、消息:
关键细节:正则写法与分组访问
- 正则写在
regex属性中,用双大括号{{}}转义花括号(如\d{{4}}表示 4 位数字) - 捕获组用圆括号
()定义,从regex-group(1)开始编号,regex-group(0)是整个匹配串 - 支持标志:加
flags属性,如flags="i"(忽略大小写)、"m"(多行模式) - 若正则含
^或$,通常需配flags="m"才能逐行匹配
实用场景:不止于单行解析
-
解析 CSV 片段:用
regex="([^,]*),([^,]*),([^,]*)"提取三列(注意转义引号) -
高亮关键词:在
matching-substring中包装,non-matching-substring直接输出 -
拆分带分隔符的列表:如
regex=",\s*"匹配逗号+空格,用non-matching-substring拿到每个值 -
跳过注释或空行:正则匹配
^\s*(#|//).*$或^\s*$,在non-matching-substring中只处理有效内容
常见坑与提醒
- 正则不支持
\b(单词边界)或\s在某些处理器中可能行为不一,建议显式写[ \t\n\r] - 如果整段文本只有一个匹配,但你想提取多个子串(如所有邮箱),正则要写成全局匹配形式(XSLT 2.0 默认全局,无需
g标志) -
xsl:analyze-string不修改原始字符串,只是“观察”并生成新结构——它本身不返回值,必须靠内部模板输出 - 嵌套使用需谨慎:在
matching-substring内再调用analyze-string是允许的,但逻辑易复杂,先确认是否真需要
基本上就这些。它不是万能字符串函数,但当你需要**可靠地从半结构化文本里抠出字段、分类内容或做条件渲染**时,xsl:analyze-string 是 XSLT 2.0 最趁手的正则工具。










