提取 HTML 标签后紧跟的域名（含 .com 或 .net 扩展名）

霞舞

发布时间：2026-02-14 12:40:07

973人浏览过

来源于php中文网

原创

提取 HTML 标签后紧跟的域名（含 .com 或 .net 扩展名）

本文介绍如何使用正则表达式精准匹配以 > 结尾的标签后、以 .com 或 .net 结尾的完整域名，避免截断扩展名，并详解零宽断言与非捕获分组的正确用法。

本文介绍如何使用正则表达式精准匹配以 `>` 结尾的标签后、以 `.com` 或 `.net` 结尾的完整域名，避免截断扩展名，并详解零宽断言与非捕获分组的正确用法。

在文本解析任务中，常需从 HTML 片段或类 HTML 格式中提取结构化信息（如域名）。例如，给定字符串 >thisdomain.com fake text >thatdomain.net，目标是完整捕获 thisdomain.com 和 thatdomain.net，而非仅 thisdomain 或 thatdomain —— 这正是原始正则 (?).*?(?=com|net) 失败的原因：其使用正向先行断言 (?=com|net) 仅作边界判断，不包含匹配内容，导致 .com/.net 被排除在结果之外。

正确解法：保留扩展名的匹配模式

应改用以下正则表达式：

(?<=>).*?(?:com|net)

该模式的关键设计如下：

What-the-Diff

检查请求差异，自动生成更改描述

下载

(?)：正向后行断言（lookbehind），确保匹配位置前紧邻 >，但不消耗该字符；
.*?：非贪婪匹配任意字符（除换行符外），尽可能少地匹配，防止跨域捕获；
(?:com|net)：非捕获分组，明确匹配字面量 com 或 net，并将其纳入最终匹配结果（而非仅作为边界条件）。

✅ 匹配结果：thisdomain.com、thatdomain.net
❌ 原始错误：(?).*?(?=com|net) 仅返回 thisdomain、thatdomain

实际应用示例（Python）

import re

text = ">thisdomain.com fake text >thatdomain.net and >another.org"
# 注意：此处仅匹配 com/net，若需支持更多 TLD，可扩展为 (?:com|net|org|io)
pattern = r"(?<=>).*?(?:com|net)"
domains = re.findall(pattern, text)
print(domains)  # 输出: ['thisdomain.com', 'thatdomain.net']

注意事项与进阶建议

TLD 扩展性：若需匹配更多顶级域（如 .org, .io），请更新非捕获分组：(?:com|net|org|io)；避免写成 (com|net)（捕获分组会干扰 re.findall 的返回结构）。
边界严谨性：当前模式未校验域名格式（如是否含非法字符）。生产环境建议补充单词边界 \b 或更严格的域名正则（如 (?)[a-zA-Z0-9](?:[a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])?\.(?:com|net)\b）。
性能提示：.*? 在长文本中可能回溯开销较大。若标签结构固定（如始终为 > + 域名 + 可选标点），可进一步优化为 [^>\s]+?(?:com|net)，限制匹配范围。
HTML 解析警示：正则处理 HTML 易出错。对复杂 HTML，强烈推荐使用专业解析器（如 BeautifulSoup），本方案仅适用于简单、可控的标记片段。

掌握 (?

立即学习“前端免费学习笔记（深入）”；

PHP联系表单的安全实践：仅靠预处理语句远远不够

PHP如何实现多文件同时上传_PHP多文件上传功能实现步骤【指南】

PHP 联系表单仅用预处理语句是否足够安全？——全面防御指南

如何在PHP中不区分大小写地从字符串中提取“Men”或“Weapons”关键词

如何从字符串中准确提取性别关键词（Men/Women）