0

0

如何安全地过滤 HTML 标签:避免正则陷阱,推荐使用专业 HTML 净化库

心靈之曲

心靈之曲

发布时间:2026-01-22 13:18:11

|

414人浏览过

|

来源于php中文网

原创

如何安全地过滤 HTML 标签:避免正则陷阱,推荐使用专业 HTML 净化库

本文讲解为何不应使用正则表达式清理 html 标签,以及如何借助 sanitize-html 或 dompurify 等成熟库,精准保留指定标签(如 ``、``),安全移除所有非法标签及属性。

HTML 是一种嵌套结构复杂的标记语言,其语法允许标签嵌套、自闭合(如 如何安全地过滤 HTML 标签:避免正则陷阱,推荐使用专业 HTML 净化库)、属性值含引号/等号/尖括号(如

)、注释()、CDATA 段甚至恶意构造的畸形标签(如 ipt>)。试图用正则表达式(如 /]*>/g)匹配并剔除非白名单标签,看似简洁,实则存在根本性缺陷:
  • 无法正确处理嵌套与边界:正则无法识别标签层级,易误删或漏删;
  • 属性解析不可靠:[^>]* 会因属性中出现 >(如 php.cn/link/5cd580b09d20ca28f5aeaeb0d505bc6d">)而提前截断;
  • 忽略实体编码与转义:如 <、
  • 存在严重 XSS 风险:攻击者可利用事件属性(onerror)、JavaScript 协议(javascript:alert(1))或标签混淆()注入脚本。

✅ 正确做法是使用专为 HTML 净化设计的、经过安全审计的库:

智川X-Agent
智川X-Agent

中科闻歌推出的一站式AI智能体开发平台

下载

✅ 推荐方案一:前端使用 DOMPurify(轻量、高效、默认安全)

npm install dompurify
import DOMPurify from 'dompurify';

const allowedTags = ['a', 'b', 'i', 's', 'u', 'sup', 'sub', 'strong', 'cite', 'code', 'del', 'em'];
const config = {
  ALLOWED_TAGS: allowedTags,
  // 可选:限制属性(如只允许 href、title)
  ALLOWED_ATTR: ['href', 'title', 'target'],
  // 自动移除不安全协议
  FORBID_CONTENTS: false,
};

const input = '<b><i>@@##@@Test<strong>Passed</strong><span>without any errors</span><a href="http://example.com">click here</a></b></i>';
const clean = DOMPurify.sanitize(input, config);
console.log(clean); 
// 输出: "<b><i>Test<strong>Passed</strong>without any errors<a href="http://example.com">click here</a></b></i>"

✅ 推荐方案二:Node.js 后端使用 sanitize-html(更灵活配置)

npm install sanitize-html
const sanitizeHtml = require('sanitize-html');

const allowedTags = ['a', 'b', 'i', 's', 'u', 'sup', 'sub', 'strong', 'cite', 'code', 'del', 'em'];

const clean = sanitizeHtml(input, {
  allowedTags: allowedTags,
  allowedAttributes: {
    'a': ['href', 'title', 'target'],
    '*': [] // 其他标签不允许任何属性(可按需调整)
  },
  // 移除所有未明确允许的标签(含其内容)
  disallowedTagsMode: 'discard'
});

⚠️ 关键安全原则

  • 永远服务端净化:前端 JS 可被绕过,用户提交的 HTML 必须在后端再次校验(例如 PHP 使用 Symfony HTML Sanitizer,Java 使用 OWASP Java HTML Sanitizer);
  • 不要信任“已净化”的前端输出:DOMPurify 的 sanitize() 返回的是字符串,若直接 innerHTML = clean,仍需确保上下文安全(如避免插入到 <script> 或事件属性中);</script>
  • 定期更新依赖:DOMPurify 和 sanitize-html 持续修复新发现的 bypass 技巧,保持版本最新至关重要。

总之,HTML 净化不是字符串替换问题,而是语义解析与安全策略问题。放弃正则幻想,拥抱经过实战检验的专业工具——这是保障 Web 应用免受 XSS 攻击的第一道也是最关键的防线。

如何安全地过滤 HTML 标签:避免正则陷阱,推荐使用专业 HTML 净化库

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
PHP Symfony框架
PHP Symfony框架

本专题专注于PHP主流框架Symfony的学习与应用,系统讲解路由与控制器、依赖注入、ORM数据操作、模板引擎、表单与验证、安全认证及API开发等核心内容。通过企业管理系统、内容管理平台与电商后台等实战案例,帮助学员全面掌握Symfony在企业级应用开发中的实践技能。

87

2025.09.11

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

244

2023.11.17

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.4万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号