如何检测 Python 字符串中是否包含任意类型的引号字符（含智能引号）

霞舞

发布时间：2026-02-07 20:27:43

357人浏览过

来源于php中文网

原创

如何检测 Python 字符串中是否包含任意类型的引号字符（含智能引号）

本文介绍如何使用正则表达式准确识别字符串中是否存在标准或 unicode 智能引号（如 “” ‘’ 以及 ` 等），涵盖常见引号字符清单、正则写法、实用检测逻辑及注意事项。

在文本处理中，尤其是从富文本（如 Word、网页、Markdown 编辑器）中提取内容时，用户输入的引号往往不是 ASCII 的 straight quotes（" 和 '），而是 Unicode 中的“智能引号”（smart quotes）——例如左双引号 “（U+201C）、右双引号 ”（U+201D）、左单引号 ‘（U+2018）、右单引号 ’（U+2019），甚至还有反引号 `（U+0060）和弯引号变体（如 U+201A、U+201B、U+201E 等）。若仅用 '"' 或 "'" 匹配，极易漏检。

✅ 推荐检测思路：不依赖复杂分组，而采用「排除法」字符类 + re.sub() 留痕判断
即构造一个否定字符类 [^...]，匹配并清除所有非目标引号字符；若剩余字符串非空，则说明原串至少含一个目标引号。

以下是常用引号字符的完整推荐集合（兼顾兼容性与实用性）：

类型	Unicode 名称	Python 字符表示	Unicode 码点
左双引号	LEFT DOUBLE QUOTATION MARK	“	\u201c
右双引号	RIGHT DOUBLE QUOTATION MARK	”	\u201d
左单引号	LEFT SINGLE QUOTATION MARK	‘	\u2018
右单引号	RIGHT SINGLE QUOTATION MARK	’	\u2019
低双引号	DOUBLE LOW-9 QUOTATION MARK	„	\u201e
单低引号	SINGLE LOW-9 QUOTATION MARK	‚	\u201a
反引号（常用于代码/旧式引用）	GRAVE ACCENT	` \| \u0060
ASCII 双引号	QUOTATION MARK	"	\u0022
ASCII 单引号	APOSTROPHE	'	\u0027

对应正则表达式（原始字符串写法，避免转义干扰）：

import re

QUOTE_PATTERN = r'[^“”‘’‚„"`\'`]'  # 注意：` 在字符类中无需转义，但为清晰可保留
# 更严谨的写法（显式列出所有需保留的引号）：
QUOTE_CHARS = '“”‘’‚„"`\'`'  # 注意：此处 ` 是反引号，不是单引号
quote_regex = f'[^{re.escape(QUOTE_CHARS)}]'

✅ 实用检测函数示例：

Shrink.media

Shrink.media是当今市场上最快、最直观、最智能的图像文件缩减工具

下载

立即学习“Python免费学习笔记（深入）”；

import re

def contains_quote(text: str) -> bool:
    """检测字符串是否包含任意常见引号字符（含智能引号）"""
    if not isinstance(text, str):
        return False
    # 保留所有目标引号，移除非引号字符
    cleaned = re.sub(r'[^“”‘’‚„"`\'`]', '', text)
    return bool(cleaned)

# 测试用例
test_cases = [
    'Plain text without quotes',
    '"Straight double quotes"',
    "'Straight single quotes'",
    '“Fancy double quotes”',
    '‘Fancy single quotes’',
    '„Double low-9 quote„',
    'It`s a backtick example',  # 注意：此处 ` 是反引号，非撇号
    'No quotes here — but em-dash!',
]

for s in test_cases:
    print(f"{repr(s):<40} → {contains_quote(s)}")

⚠️ 注意事项：

不要用 re.search(r'[“”‘’"]', s) 简单匹配：虽可行，但易遗漏冷门但实际存在的引号（如 ‚、„），且未覆盖反引号等语境相关符号；
避免手动拼接 Unicode 码点（如 \u201c\u201d）：Python 字符串直接支持 Unicode 字面量，更可读、更安全；
re.escape() 在动态构建正则时必备：若引号字符来自变量或配置，务必用 re.escape() 防止特殊字符（如 ]、-、^）破坏字符类结构；
性能提示：对超长文本，re.sub() 全量扫描略重；若只需存在性判断，可用 any(c in QUOTE_CHARS for c in text)，但注意该方式不支持 Unicode 归一化（如某些字体渲染的引号可能映射到不同码点）。

总结：没有内置的「引号类」正则预设，但通过明确枚举主流引号字符并结合否定字符类策略，即可稳健、可维护地完成检测任务。建议将 QUOTE_CHARS 定义为模块级常量，便于团队复用与后续扩展（如加入中文顿号、日文括号等语境引号）。

Python自动化办公教程_ExcelWordPDF批量处理

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

相关标签: