C++如何进行字符串的N-gram提取？（文本特征工程基础）

冰火之心

发布时间：2026-02-21 13:34:34

177人浏览过

来源于php中文网

原创

用std::string::substr()提取n-gram最直接，需遍历起始位置i∈[0, len−n+1)，避免越界；len

c++如何进行字符串的n-gram提取？（文本特征工程基础）

用 `std::string` 切子串是最直接的方式

不需要引入第三方库，C++11 起 std::string::substr() 就能搞定 N-gram 提取。核心逻辑就是遍历起始位置，每次取长度为 n 的子串。

常见错误是越界：当字符串长度 len 小于 n 时，substr(i, n) 在 i 接近末尾时会抛 std::out_of_range，或者静默截断（取决于实现和参数）。必须手动限制循环上界为 len - n + 1。

只对有效索引操作：for (int i = 0; i （注意是 <code>，不是 <code>）
空字符串或 n == 0 需提前返回空容器，否则 s.length() - n 可能成极大正数（无符号整数下溢）
若需保留空白符（如分词前的原始字符级 n-gram），别先 trim；若做词级别 n-gram，得先按空格/标点切词，再对 vector<string></string> 做滑动窗口

处理 Unicode 字符要小心 `std::string` 的字节陷阱

std::string 存的是字节，不是字符。UTF-8 下一个汉字占 3 字节，直接用 substr() 切可能截断码点，产生乱码或非法序列。

真实场景中，如果你的输入来自文件、网络或用户输入，大概率是 UTF-8 编码。这时候“提取 2-gram”是指 2 个 Unicode 字符，不是 2 个字节。

立即学习“C++免费学习笔记（深入）”；

AMiner

AMiner——新一代智能型科技情报挖掘与服务系统，能够为你提供查找论文、理解论文、分析论文、写作论文四位一体一站式服务。

下载

简单但不健壮的做法：用 std::wstring + std::locale 转宽字符，再切 —— 但 Windows/Linux 对 wchar_t 宽度定义不同，跨平台易出问题
推荐轻量方案：用 utf8cpp 库（头文件仅 utf8.h）先解码为 std::vector<uint32_t></uint32_t>（即 Unicode 码点），再对这个向量做滑动窗口
若确定输入全是 ASCII（比如日志 ID、base64 片段），可跳过这步，直接用 substr

性能关键：避免重复分配和拷贝

提取 10 万字符文本的 3-gram，可能生成数万个 std::string 对象。默认方式每调用一次 substr() 都分配新内存，开销明显。

有两种实用优化路径：

用 std::string_view（C++17）代替 std::string 存结果：所有 n-gram 共享原字符串内存，只存偏移和长度，构造零成本
如果后续要哈希或查重，直接算 std::hash<:string_view>{}(sv)</:string_view>，比存完整字符串省空间又快
若必须用 std::string（比如要传给旧接口），预先 reserve() 目标容器，避免多次 realloc

边界情况：空格、换行、控制字符怎么算？

N-gram 提取本身不关心语义，但特征工程效果高度依赖预处理策略。同一段文本，“hello world” 的字符 2-gram 是 "he", "el", "ll", "lo", "o ", " w", "wo", "or", "rl", "ld" —— 注意空格也被计入。

是否保留空白，取决于任务目标：

做语言模型建模（如拼写纠错）：通常保留空格和换行，因它们也是语言的一部分
做关键词聚类或分类：常先替换连续空白为单空格，再 erase(remove_if(... isspace ...)) 彻底去掉所有空白
遇到 \0、\r、\t 等，substr() 照样提取，但后续处理（如写入 CSV）可能出错，建议提前清洗

最易被忽略的是：n-gram 数量随 n 增大衰减极快，且长 n-gram 稀疏性爆炸。实际用时，n 很少超过 5，且常配合 hash trick 或 top-k 截断使用。

C++怎么调用NFC读卡器_C++近场通信教程【识别】

C++如何进行快速最长公共子序列（LCS）计算？（动态规划优化）

C++怎么实现并查集_C++集合合并教程【连通】

C++如何调用NTP服务器同步时间？（UDP协议实现）

C++怎么避免浅拷贝_C++资源管理教程【陷阱】

相关标签:

c++ String for 字符串 int 循环 len

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C++如何获取当前程序运行路径_C++跨平台获取执行文件目录方法【系统】下一篇：暂无

作者最新文章

书旗小说官方网页版书旗小说网页版入口登录

2026-02-20 17:11

赶集招聘如何发布个人简历_赶集招聘简历上线教程【上线】

2026-02-20 17:13

MAC怎么关闭邮件通知_MAC Mail提醒设置方法【专注】

2026-02-20 17:17

大众点评怎么看必玩榜_大众点评景点游玩推荐【游玩】

2026-02-20 17:23

DeepSeek如何写Nginx负载均衡_DeepSeek服务器分流配置【必看】

2026-02-20 17:27

千问ai怎么解析图片_通义千问识图功能应用场景【实测】

2026-02-20 17:28

前程无忧怎么设置消息免打扰_前程无忧系统设置教程【效率】

2026-02-20 17:30

Win11怎么关闭系统自动更新_Windows策略组配置【指南】

2026-02-20 17:31

Win11无法安装.NET Framework_Windows离线安装方法【分享】

2026-02-20 17:31

盘搜搜网盘搜索入口盘搜搜官网网页版

2026-02-20 17:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

810

2023.08.02

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

595

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

217

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1555

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

641

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

986

2024.03.22