0

0

XPath的substring-before()函数怎么用?

星降

星降

发布时间:2025-08-18 17:33:01

|

945人浏览过

|

来源于php中文网

原创

substring-before()用于提取分隔符前的字符串,适用于从XML/HTML中提取前缀信息,如路径、ID等;若分隔符不存在则返回空,且仅匹配首个分隔符,需结合substring-after()处理复杂结构,常用于网页数据清洗。

xpath的substring-before()函数怎么用?

XPath的

substring-before()
函数,顾名思义,就是用来从一个字符串中提取出特定分隔符“之前”的那一部分内容。它就像一把精准的剪刀,遇到你指定的标记,就咔嚓一下,把标记前面的部分剪下来给你。

解决方案

substring-before()
函数的语法很简单:
substring-before(string, substring)
。第一个参数是你想要处理的原始字符串,第二个参数是作为分隔符的子字符串。当你在处理XML或HTML文档时,这个函数特别有用,尤其是在你需要从某个文本节点或属性值中抽取出特定信息时。

举个例子,如果你有一个字符串是

"user-ID-12345"
,而你只想要前面的
"user"
部分,那么你可以这样用:
substring-before("user-ID-12345", "-ID")
,结果就是
"user"
。又或者,你可能有一个文件路径
"C:/Users/Documents/report.pdf"
,想知道它在哪个目录下,那么
substring-before("C:/Users/Documents/report.pdf", "/report.pdf")
就能帮你得到
"C:/Users/Documents"

它在数据清洗和结构化提取方面,是一个非常基础但又高效的工具。我个人觉得,很多时候我们获取到的数据都不是那么规整的,尤其是从网页上抓取下来的文本,往往会带有一些前缀或者标识符,这时候

substring-before()
就能派上大用场了。

substring-before()
substring-after()
有何不同,各自适用于哪些场景?

这两个函数就像一对孪生兄弟,都是用来切割字符串的,但一个取前面,一个取后面。

substring-before()
是取分隔符之前的部分,而
substring-after()
则是取分隔符之后的部分。

它们的应用场景自然也是互补的。比如,你有一个商品编号是

"PROD_A12345"
,你想得到
"PROD"
这个前缀,那自然是用
substring-before("PROD_A12345", "_A")
。但如果你想得到实际的编号
"A12345"
,那么
substring-after("PROD_A12345", "PROD_")
就更合适了。

在处理URL时,这两种函数也经常配合使用。比如,从

"https://example.com/products?id=123&category=books"
中,你想获取域名
"example.com"
,你可能会先用
substring-after(., '://')
得到
"example.com/products?id=123&category=books"
,然后再用
substring-before(., '/')
来提取出
"example.com"
。这种链式操作在XPath中是相当常见的,也是体现其灵活性的一个点。选择哪个函数,完全取决于你想要保留哪一部分信息。

在处理复杂字符串时,
substring-before()
可能会遇到哪些挑战或限制?

虽然

substring-before()
很好用,但它也不是万能的,在某些复杂场景下,确实会遇到一些限制。

音剪
音剪

喜马拉雅旗下的一站式AI音频创作平台,强大的在线剪辑能力,帮你轻松创作优秀的音频作品

下载

一个比较常见的挑战是,如果指定的

substring
(分隔符)在原始字符串中不存在,那么
substring-before()
会返回一个空字符串。这在实际应用中需要特别注意,因为它不会报错,只是默默地给你一个空值,你可能需要额外的逻辑去判断这个结果是否有效。例如,
substring-before("hello world", "xyz")
的结果就是空字符串。

另一个限制是,它只会查找并处理第一个匹配到的分隔符。这意味着,如果你的字符串中包含多个相同的分隔符,比如

"apple-banana-cherry"
,而你用
substring-before(., "-")
,它只会返回
"apple"
。如果你想获取
"banana"
或者
"cherry"
substring-before()
就无法直接满足需求了,你可能需要结合其他函数,比如多次应用
substring-after()
或者考虑使用XPath 2.0及更高版本中的
tokenize()
函数(如果环境支持的话),来将字符串分割成多个部分,再进行处理。

此外,

substring-before()
区分大小写的。
substring-before("HelloWorld", "world")
会返回空字符串,因为它找不到小写的"world"。如果你需要进行不区分大小写的匹配,你可能需要先将原始字符串和分隔符都转换为小写或大写(例如使用
lower-case()
函数),然后再进行比较。这些都是在使用时需要留意的细节,否则很容易得到非预期的结果。

结合实际网页抓取,如何高效利用
substring-before()
提取特定数据?

在网页抓取中,

substring-before()
是数据清洗和定位的关键一环。想象一下,你正在抓取一个电商网站的商品列表,每个商品的链接可能长这样:
...
。而你只想提取出
PID-12345
这个商品ID。

这时,你可以这样来构建你的XPath表达式:

//a[starts-with(@href, '/product/detail/')]/@href
这会先定位到所有符合条件的链接的
href
属性。 然后,你可以在这个结果上应用
substring-before()
substring-before(substring-after(//a[starts-with(@href, '/product/detail/')]/@href, 'PID-'), '-sku-')

让我分解一下这个思路:

  1. //a[starts-with(@href, '/product/detail/')]/@href
    :首先,我找到所有
    href
    属性以
    /product/detail/
    开头的
    标签,并取出它们的
    href
    属性值。
  2. substring-after(..., 'PID-')
    :因为我只关心
    PID-
    后面的内容,所以先用
    substring-after()
    href
    值中
    PID-
    之前的部分去掉。例如,
    /product/detail/PID-12345-sku-abc.html
    会变成
    12345-sku-abc.html
  3. substring-before(..., '-sku-')
    :接着,从上一步的结果
    12345-sku-abc.html
    中,我需要
    sku-
    之前的部分,也就是
    12345
    。所以再用
    substring-before()
    来提取。

这样一步步地剥离,就能精准地提取出你想要的数据。这种组合使用

substring-before()
substring-after()
的方式,在处理各种带前缀、后缀或中间夹杂着特定标识符的字符串时,都非常高效和实用。它避免了使用复杂的正则表达式,让XPath表达式更加直观和易于理解,尤其是在处理那些结构相对固定的字符串时,效果极佳。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

248

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

741

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

234

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

23

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.8万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号