0

0

c++如何判断一个字符串是否为URL_c++正则表达式匹配URL【技巧】

冰火之心

冰火之心

发布时间:2026-02-12 18:33:21

|

499人浏览过

|

来源于php中文网

原创

使用std::regex匹配url需显式写出协议头并转义特殊字符,推荐先清洗字符串并用子串查找替代正则以避免引擎缺陷和unicode/ipv6复杂性。

c++如何判断一个字符串是否为url_c++正则表达式匹配url【技巧】

std::regex 匹配 URL 要注意协议头和转义

标准 C++ 的 std::regex 不支持 \p{L} 或 Unicode 字符类,也不能直接写 http:// 这种带斜杠的字面量而不转义——斜杠本身不是正则元字符,但容易和分隔符混淆(尤其在某些封装接口中)。实际写时,协议部分必须显式写出,且路径中的点号 .、问号 ?、等号 = 等需视上下文决定是否转义。

一个轻量但实用的判断逻辑是:以 http://https://ftp:// 开头,后面跟至少一个非空白字符。不追求 100% RFC 合规,而是防明显误判:

std::regex url_pattern(R"(^(https?|ftp)://[^\s/$.?#].[^\s]*)");

说明:

  • R"(...)" 原始字符串字面量,避免双反斜杠干扰
  • [^\s/$.?#] 排除开头就接路径分隔符或查询符的非法情况(如 http:///
  • [^\s]* 允许后续任意非空白字符,覆盖常见域名、路径、参数

空字符串、无协议字符串、含控制字符的输入会意外通过

上面的正则对 "https://""ftp:// "(末尾空格)、"http://\texample.com" 都可能返回 true,因为 [^\s]* 在匹配失败后仍可能让整体匹配成功(取决于引擎回溯行为)。真正健壮的判断必须前置清洗和基础检查:

立即学习C++免费学习笔记(深入)”;

PpcyAI
PpcyAI

泡泡次元AI-游戏美术AI创作平台,低门槛上手,高度可控,让你的创意秒速落地

下载
  • 先用 str.empty()str.find_first_of("\r\n\t\f\v") != std::string::npos 排除空白和控制字符
  • 再检查前缀:str.substr(0, 7) == "http://"str.substr(0, 8) == "https://",比正则更快更可控
  • 如果允许相对 URL(如 //example.com),需单独分支处理,不能塞进同一正则

Windows 上 std::regex 可能崩溃或不支持 ECMAScript 语法

MSVC 的旧版 STL(如 VS2015/2017)对 std::regex 实现不完整,std::regex_constants::ECMAScript 模式下某些断言或量词会抛 std::regex_error,甚至触发未定义行为。若遇到 regex_error: The complexity of an attempted match against a regular expression exceeded a pre-set limit,不是表达式写错了,是引擎限制了回溯深度。

可行方案:

  • 改用 boost::regex(稳定,支持完整 ECMAScript)
  • 或退回到简单子串查找 + 手动解析:检查是否有 ://、是否包含 @(用户信息)、是否在第一个 / 前有合法域名结构(如含点、不含空格)
  • 编译时加 /std:c++17 并确认 STL 版本 ≥ VS2019 16.10,部分问题可缓解

URL 中的中文、emoji、IPv6 地址会让正则迅速变复杂

一旦要支持 https://例子.comhttps://[2001:db8::1]/path,纯 std::regex 几乎不可维护。标准库 regex 不支持 (?i) 忽略大小写修饰符(部分实现支持,但不可移植),也不支持 IPv6 方括号嵌套的递归匹配。

此时建议:

  • std::string_view 分段提取:找 :// → 截取协议 → 找第一个 /?# → 对 host 部分单独做 DNS 名称校验(如检查点号位置、长度、字符集)
  • 对 IPv6 host,检查是否以 [ 开头、以 ] 结尾,中间内容可交由 inet_pton(AF_INET6, ...) 验证
  • 接受“能识别常见 URL”而非“能解析所有合法 URL”——浏览器本身也只做启发式判断

真正难的不是写对一个正则,而是定义清楚:你要拦住什么?放行什么?边界在哪。多数场景下,协议头 + 域名基本结构 + 无控制字符,已经够用。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

520

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

253

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

757

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

218

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

353

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

243

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

537

2023.12.06

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

4

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 3.6万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.6万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号