使用 XSLT 3 和 SaxonC 自动识别并包装 XML 中的软件名称

心靈之曲

发布时间：2026-01-31 21:40:01

728人浏览过

来源于php中文网

原创

使用 XSLT 3 和 SaxonC 自动识别并包装 XML 中的软件名称

本文介绍如何利用 xslt 3 的高级文本处理能力（配合 python 的 `saxonche` 库），精准定位 xml `

` 标签内嵌套 `` 等子元素时的软件名称，并基于 json 提供的上下文与偏移信息，将其安全包裹在 `` 标签中，避免破坏原有结构。

在科研文献或技术文档的 XML 标注任务中，常需从混合内容（mixed content）的 段落中识别特定软件名称（如 MODELLER、PROSA），并为其添加语义化标签（如 <software>）。难点在于：这些名称往往夹杂在纯文本与内联子元素（如 <ref>、）之间，传统正则替换或简单 DOM 遍历极易误伤结构或错位匹配。

推荐方案是采用 XSLT 3 + SaxonC —— 这一组合支持原生 JSON 解析、高阶迭代（xsl:iterate）、文本分析（analyze-string）及隧道参数（tunnel parameters），能完美应对“上下文驱动”的精准定位需求。

Frase

Frase是一款出色的长篇 AI 写作工具，快速创建seo优化的内容。

下载

以下是一个可直接运行的完整流程：

✅ 步骤 1：安装依赖

pip install saxonche

✅ 步骤 2：准备 XSLT 脚本（wrap-software.xsl）

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="3.0"
  xmlns:xs="http://www.w3.org/2001/XMLSchema"
  exclude-result-prefixes="#all"
  expand-text="yes">

  <!-- 主逻辑：对每个 <p>，遍历 JSON 中所有 software 条目 -->
  <xsl:template match="p">
    <xsl:iterate select="$json-doc?*[?type = 'software']">
      <xsl:param name="p" select="."/>
      <xsl:on-completion select="$p"/>
      <!-- 仅当当前 <p> 文本包含该软件的 context 时才处理 -->
      <xsl:if test="contains($p, ?context)">
        <xsl:variable name="transformed-p" as="element(p)">
          <xsl:apply-templates select="$p" mode="process">
            <xsl:with-param name="software" select="." tunnel="yes"/>
          </xsl:apply-templates>
        </xsl:variable>
        <xsl:next-iteration>
          <xsl:with-param name="p" select="$transformed-p"/>
        </xsl:next-iteration>
      </xsl:if>
    </xsl:iterate>
  </xsl:template>

  <!-- 定义处理模式：仅处理文本节点 -->
  <xsl:mode name="process" on-no-match="shallow-copy"/>

  <!-- 对 <p> 内任意文本节点进行上下文校验与包装 -->
  <xsl:template mode="process" match="p//text()">
    <xsl:param name="software" tunnel="yes" as="map(*)"/>
    <xsl:choose>
      <!-- 关键条件：当前文本必须同时满足：
           1) 属于该 software 的 context 子串；
           2) 包含其 normalizedForm（如 "MODELLER"） -->
      <xsl:when test="contains($software?context, .) and contains(., $software?software-name?normalizedForm)">
        <xsl:apply-templates 
          select="analyze-string(., $software?software-name?normalizedForm)" 
          mode="wrap"/>
      </xsl:when>
      <xsl:otherwise>
        <xsl:next-match/>
      </xsl:otherwise>
    </xsl:choose>
  </xsl:template>

  <!-- 将匹配到的子串包装为 <software> -->
  <xsl:template mode="wrap" match="*:match">
    <software>{.}</software>
  </xsl:template>

  <!-- 输出配置 -->
  <xsl:output method="xml" indent="yes"/>
  <xsl:mode on-no-match="shallow-copy"/>

  <!-- 加载 JSON 数据（支持文件读取或内联） -->
  <xsl:param name="json-doc" select="json-doc('software-mentions.json')"/>
</xsl:stylesheet>

? 说明：json-doc('software-mentions.json') 会自动解析 JSON 文件；若需调试，也可将 JSON 内联为 <xsl:param name="json-data">[...]</xsl:param> 并改用 parse-json($json-data)。

✅ 步骤 3：Python 调用示例

from saxonche import PySaxonProcessor

# 输入 XML 和 XSLT 路径
xml_file = "input.xml"
xslt_file = "wrap-software.xsl"

with PySaxonProcessor() as proc:
    xslt_proc = proc.new_xslt30_processor()
    # 执行转换
    output = xslt_proc.transform_to_string(
        source_file=xml_file,
        stylesheet_file=xslt_file
    )
    print(output)

⚠️ 注意事项

上下文匹配优先级：XSLT 先验证整个 是否包含 context 字符串，再在匹配的文本节点中查找 normalizedForm，确保不跨句误包（例如避免将 MODEL 错包为 MODELLER 的子串）。
嵌套安全：xsl:iterate 逐个应用软件规则，且 mode="process" 严格作用于 text() 节点，完全保留 <ref>、 等子元素结构。
大小写敏感：默认区分大小写；如需忽略，可将 contains() 替换为 matches(., concat('\b', $software?software-name?normalizedForm, '\b'), 'i')。
性能提示：对于超大 XML，建议预筛选 标签（如先用 lxml 提取含关键词的段落再交由 XSLT 处理）。

该方法以声明式逻辑替代脆弱的手动 DOM 操作，兼具准确性、可维护性与扩展性——未来新增软件只需更新 JSON，无需修改代码。

如何在Python中安全删除纯数字文件名（无扩展名）的文件

Python 中全局变量在多线程回调函数中的正确访问方式

Python中os.listdir()返回文件顺序的原理与正确排序方法

如何在Python中安全删除纯数字命名（无扩展名）的文件

Python 中 os.listdir() 文件顺序不可靠的原因与解决方案

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

458

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1091

2023.08.02

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1950

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2120

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1180

2024.11.28

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板