如何在 Polars DataFrame 中精确统计子串的重叠出现次数

碧海醫心

发布时间：2026-02-13 12:26:11

600人浏览过

来源于php中文网

原创

如何在 Polars DataFrame 中精确统计子串的重叠出现次数

本文介绍一种高效、向量化的方法，利用字符串切片与横向求和，在 polars 中实现子串重叠匹配计数（如 `"aa"` 在 `"aaaaa"` 中应计为 4 次），弥补 `str.count_matches` 仅支持非重叠匹配的局限。

在 Polars 中，str.count_matches() 是统计子串出现频次的常用方法，但它基于正则引擎实现，默认匹配非重叠、贪心的连续片段。例如，对字符串 "aaaaa" 查找 "aa"，它会匹配位置 0–1 和 2–3，跳过 1–2 和 3–4，最终返回 2 —— 这不符合重叠计数需求（正确结果应为 4）。

要真正支持重叠匹配，核心思路是：将原字符串按长度为 len(sub) 的滑动窗口切分为所有可能的连续子串，再对每个子串判断是否等于目标子串，最后汇总真值数量。由于 Polars 原生不提供滑动窗口计数函数，我们可通过 str.slice() 构造一系列偏移切片，再用 count_matches("...")（此时每个切片长度恰好等于子串长，等价于精确相等判断）完成逐窗口检测。

以下为完整实现方案：

import polars as pl

df = pl.DataFrame({"foo": ["aaaaa", "aabaa", "aaaab"]})
pattern = "aa"
pattern_len = len(pattern)

# 步骤 1：计算最长字符串长度，确定最大切片起始索引（n - pattern_len + 1）
max_len = df.select(pl.col("foo").str.len_chars().max()).item()
if max_len < pattern_len:
    # 若所有字符串都短于 pattern，直接返回全 0
    result = df.with_columns(pl.lit(0).alias("count"))
else:
    # 步骤 2：生成所有可能的起始位置（0 到 max_len - pattern_len）
    slices = [
        pl.col("foo").str.slice(i, pattern_len).alias(f"_{i}") 
        for i in range(max_len - pattern_len + 1)
    ]

    # 步骤 3：对每个切片列执行 count_matches（因长度固定，等效于 == pattern）
    # 使用 sum_horizontal 对布尔匹配结果横向求和
    result = df.with_columns(
        pl.sum_horizontal([s.str.count_matches(pattern) for s in slices]).alias("count")
    )

print(result)

输出：

聪豹Wiseal

聪豹Wiseal是一个专业的历史时间线收集整理工具

下载

shape: (3, 2)
┌───────┬───────┐
│ foo   ┆ count │
│ ---   ┆ ---   │
│ str   ┆ u32   │
╞═══════╪═══════╡
│ aaaaa ┆ 4     │
│ aabaa ┆ 2     │
│ aaaab ┆ 3     │
└───────┴───────┘

✅ 关键优势：

完全向量化：无 Python 循环或 apply()，充分利用 Polars 的底层优化；
内存可控：切片列数由最长字符串决定，对常规文本长度（如 ≤1000 字符）开销极小；
通用性强：只需修改 pattern 变量即可适配任意长度子串（包括单字符、多字符、甚至 Unicode 组合）。

⚠️ 注意事项：

若数据中存在空字符串或 null 值，str.slice() 会自动返回 null，而 count_matches() 在 null 上返回 null，最终 sum_horizontal 会传播 null。如需健壮处理，建议前置填充或过滤：
```
.with_columns(pl.col("foo").fill_null("").alias("foo"))
```
当 pattern 长度为 0 或超长时，应增加校验逻辑，避免无效切片；
此方法本质是“模拟滑动窗口”，时间复杂度为 O(n × m)（n 为行数，m 为平均字符串长度），对超长文本（如 MB 级日志字段）需评估性能，必要时可结合 str.lengths() 提前过滤过短行。

综上，该方案以清晰的声明式表达、零外部依赖和优异的 Polars 兼容性，成为统计重叠子串频次的首选实践。

相关标签:

NULL 字符串循环切片 len

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用字典映射替代冗长的 if-elif 链实现价格范围解析下一篇：Pandas中groupby.rank误用导致排名错位的根源与修复方案

作者最新文章

PHP 中无法在实例化时动态覆盖类方法

2026-02-11 09:05

Tic Tac Toe 游戏提前判定胜利失效的修复指南

2026-02-11 09:34

如何为指定 ID 的按钮自定义 ::after 伪元素悬停背景色

2026-02-11 09:38

企查查如何快速重置密码

2026-02-11 09:41

XPath 定位紧邻指定文本后的元素的精准写法

2026-02-11 09:50

如何用键盘控制 Python Turtle 移动（无需 keyboard 库）

2026-02-11 09:50

吉星派对礼物大作战吉尔打法分享

2026-02-11 09:50

QueryDSL 实现“集合中所有元素满足条件”的查询技巧

2026-02-11 09:54

实现鼠标悬停自动加载数据的完整教程

2026-02-11 10:11

赛尔号h5手机版怎么买pp药赛尔号h5买药位置一览

2026-02-11 10:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

244

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

705

2024.03.01

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

529

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

214

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1551

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

864

2024.03.22