0

0

C语言中正则表达式怎么匹配C语言regex库的函数详解

尼克

尼克

发布时间:2025-06-26 10:58:01

|

1047人浏览过

|

来源于php中文网

原创

c语言中使用正则表达式需借助regex库。1. 首先包含头文件;2. 使用regcomp函数编译正则表达式,将正则表达式字符串编译为可执行结构体;3. 利用regexec函数执行匹配,支持提取子字符串;4. 最后调用regfree函数释放内存避免泄漏。特殊字符需双重转义,标志位控制语法特性,如reg_extended启用扩展语法。错误处理通过regerror获取编译或匹配错误信息。性能优化包括简化表达式、使用锚点、减少回溯及复用编译结果。

C语言中正则表达式怎么匹配C语言regex库的函数详解

C语言中使用正则表达式,需要借助regex库。核心在于理解 regcompregexecregfree 这三个函数,以及 regex_t 结构体。别指望像Python那样一行代码搞定,C语言的实现相对底层,需要更多手动操作,但也更灵活。

C语言中正则表达式怎么匹配C语言regex库的函数详解

解决方案

C语言中正则表达式怎么匹配C语言regex库的函数详解

首先,你需要包含 <regex.h></regex.h> 头文件。然后,使用 regcomp 函数编译你的正则表达式。这个函数会将正则表达式字符串编译成一个可以被 regexec 函数使用的结构体。

立即学习C语言免费学习笔记(深入)”;

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>

int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello[[:space:]]+world"; // 匹配 "hello" 后面跟着一个或多个空格,然后是 "world"
  const char *text = "hello   world";

  // 编译正则表达式
  ret = regcomp(&regex, pattern, REG_EXTENDED); // REG_EXTENDED 使用扩展正则表达式语法
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }

  // 执行正则表达式匹配
  ret = regexec(&regex, text, 0, NULL, 0); // 0, NULL, 0 表示我们不关心匹配的细节,只关心是否匹配
  if (!ret) {
    printf("Match found!
");
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }

  // 释放正则表达式
  regfree(&regex);

  return 0;
}

regcomp 的第二个参数是你的正则表达式字符串,第三个参数是标志位,例如 REG_EXTENDED 表示使用扩展正则表达式语法,REG_ICASE 表示忽略大小写。

C语言中正则表达式怎么匹配C语言regex库的函数详解

接下来,使用 regexec 函数执行匹配。这个函数会在给定的字符串中搜索与编译后的正则表达式匹配的部分。

regexec 的第二个参数是要匹配的字符串。后面的参数用于存储匹配的细节,例如匹配的起始位置和长度。如果我们只关心是否匹配,可以将这些参数设置为 0 和 NULL。

最后,使用 regfree 函数释放 regex_t 结构体占用的内存。这是一个很重要的步骤,否则会导致内存泄漏。

AskAI
AskAI

无代码AI模型构建器,可以快速微调GPT-3模型,创建聊天机器人

下载

如何处理正则表达式中的特殊字符?

C语言的正则表达式需要对一些特殊字符进行转义。例如,如果你想匹配一个点号(.),你需要使用 .。如果你想匹配一个反斜杠(),你需要使用 \。而且,C语言字符串本身也需要转义,所以要匹配一个反斜杠,你可能需要写成 "\\"。这有点反人类,但没办法,C语言就是这样。

此外,regcomp 函数的标志位可以影响正则表达式的解析方式。例如,REG_EXTENDED 标志位允许你使用更现代的正则表达式语法,例如 +?

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>

int main() {
  regex_t regex;
  int ret;
  const char *pattern = "a\\b"; // 匹配 "a"
  const char *text = "a\b";

  ret = regcomp(&regex, pattern, 0);
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }

  ret = regexec(&regex, text, 0, NULL, 0);
  if (!ret) {
    printf("Match found!
");
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }

  regfree(&regex);

  return 0;
}

如何提取匹配到的子字符串?

如果你想提取匹配到的子字符串,你需要使用 regexec 函数的第三个和第四个参数。第三个参数是 size_t nmatch,表示你想提取的子字符串的数量。第四个参数是 regmatch_t pmatch[],是一个 regmatch_t 类型的数组,用于存储匹配到的子字符串的起始位置和长度。

regmatch_t 结构体有两个成员:rm_sorm_eo,分别表示子字符串的起始位置和结束位置。

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>

int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello([[:space:]]+)(world)"; // 匹配 "hello" 后面跟着一个或多个空格,然后是 "world",并捕获空格和 "world"
  const char *text = "hello   world";
  regmatch_t pmatch[3]; // 我们要捕获 3 个子字符串:整个匹配、空格、"world"
  size_t nmatch = 3;

  ret = regcomp(&regex, pattern, REG_EXTENDED);
  if (ret) {
    fprintf(stderr, "Could not compile regex
");
    exit(1);
  }

  ret = regexec(&regex, text, nmatch, pmatch, 0);
  if (!ret) {
    printf("Match found!
");
    for (int i = 0; i < nmatch; i++) {
      printf("Match %d: start=%ld, end=%ld
", i, (long)pmatch[i].rm_so, (long)pmatch[i].rm_eo);
      if (pmatch[i].rm_so != -1 && pmatch[i].rm_eo != -1) {
          char *substring = (char*)malloc(pmatch[i].rm_eo - pmatch[i].rm_so + 1);
          strncpy(substring, text + pmatch[i].rm_so, pmatch[i].rm_eo - pmatch[i].rm_so);
          substring[pmatch[i].rm_eo - pmatch[i].rm_so] = '';
          printf("Substring %d: %s
", i, substring);
          free(substring);

      }
    }
  } else if (ret == REG_NOMATCH) {
    printf("No match found.
");
  } else {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex match failed: %s
", errbuf);
    exit(1);
  }

  regfree(&regex);

  return 0;
}

注意,pmatch[0] 存储的是整个匹配的起始位置和结束位置,pmatch[1] 存储的是第一个捕获组的起始位置和结束位置,以此类推。如果某个捕获组没有匹配到任何内容,rm_sorm_eo 的值都会是 -1。

如何处理正则表达式编译错误

regcomp 函数如果编译失败,会返回一个非零值。你可以使用 regerror 函数获取错误信息。

#include <regex.h>
#include <stdio.h>
#include <stdlib.h>

int main() {
  regex_t regex;
  int ret;
  const char *pattern = "hello[[:space:]+world"; // 错误的正则表达式:缺少一个 ]

  ret = regcomp(&regex, pattern, REG_EXTENDED);
  if (ret) {
    char errbuf[100];
    regerror(ret, &regex, errbuf, sizeof(errbuf));
    fprintf(stderr, "Regex compilation failed: %s
", errbuf);
    exit(1);
  }

  regfree(&regex);

  return 0;
}

regerror 函数的第一个参数是 regcomp 函数的返回值,第二个参数是指向 regex_t 结构体的指针,第三个参数是用于存储错误信息的缓冲区,第四个参数是缓冲区的大小。

如何优化正则表达式的性能?

正则表达式的性能可能是一个问题,尤其是在处理大量数据时。以下是一些优化正则表达式性能的技巧:

  • 避免使用复杂的正则表达式。 简单的正则表达式通常比复杂的正则表达式更快。
  • 尽可能使用字面量。 字面量比正则表达式更快。例如,"hello""h.llo" 更快。
  • 使用锚点。 锚点可以告诉正则表达式引擎从字符串的特定位置开始搜索。例如,"^hello" 只会在字符串的开头搜索 "hello"
  • 避免回溯。 回溯是正则表达式引擎尝试不同的匹配方式的过程。回溯可能会很慢。你可以使用非贪婪匹配或原子组来避免回溯。
  • 编译正则表达式一次,多次使用。 编译正则表达式是一个耗时的操作。如果你需要多次使用同一个正则表达式,最好只编译一次,然后多次使用编译后的正则表达式。
  • 考虑使用其他工具 如果正则表达式的性能仍然不够好,可以考虑使用其他的字符串处理工具,例如 strstrmemchr。有时候,简单的字符串处理函数比复杂的正则表达式更快。

总的来说,C语言的正则表达式库虽然使用起来比较繁琐,但功能强大且灵活。理解 regcompregexecregfree 这三个函数,以及 regex_t 结构体,你就可以在C语言中使用正则表达式来处理各种字符串匹配问题。记住,及时释放内存,避免内存泄漏!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

408

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

635

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

628

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

558

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

668

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

616

2023.09.22

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 4万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.7万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号