0

0

Python 字符串切片为何可能产生内存浪费

冷炫風刃

冷炫風刃

发布时间:2026-02-15 18:15:10

|

380人浏览过

|

来源于php中文网

原创

字符串切片会复制底层字符数组。python的str切片操作(如s[10:20])总是创建新字符串并分配独立内存,而非共享原字符串内存,这是由cpython的设计决定的。

python 字符串切片为何可能产生内存浪费

字符串切片会复制底层字符数组吗

会。Python 的 str 是不可变对象,但底层实现中,切片操作(如 s[10:20])在多数情况下会创建新字符串对象,并分配独立内存来存储子串内容——不是共享原字符串的内存块。

这和 CPython 的历史优化有关:早期版本为避免“长字符串持有时短切片无法释放内存”,引入了“字符串对象自带引用计数 + 独立数据缓冲区”的设计。即使你只取 3 个字符,s[1000:1003] 也会拷贝这 3 字节,而不是复用原字符串的某段地址。

常见错误现象:
— 加载一个 500MB 的日志文件到 text,反复做 text[i:i+100],内存占用持续上涨,GC 也清不掉
— 使用 line.split()[0] 处理百万行 CSV,发现内存比原始文件还高一倍

实操建议:
• 如果只是临时检查内容(比如判断前缀),优先用 str.startswith()str.endswith(),它们不生成新字符串
• 对超长文本做多次小范围提取,考虑改用 memoryview(bytearray(text, 'utf-8')) 配合字节操作(需注意编码边界)
• 不要假设 s[a:b] 是“零拷贝”——它从来就不是

立即学习Python免费学习笔记(深入)”;

为什么 str.__getitem__ 不返回视图而是新字符串

因为 Python 的 str 接口契约要求返回 str 类型,而字符串必须是不可变且语义完整的。如果返回某种“切片视图”,就会破坏类型一致性、引发 isinstance(x, str) 意外失败,也难以支持 .upper().encode() 等方法。

使用场景差异:
bytes 类型确实支持视图(memoryview(b)[10:20] 不拷贝)
str 没有等价机制,这是设计取舍,不是 bug

Dream Machine
Dream Machine

Dream Machine 是由 Luma AI 开发的一款 AI 视频生成工具,可以快速将文本和图像转换为高质量的视频内容。

下载

参数差异:
s[1:1000000]s[1:2] 在 CPython 中调用的是同一套复制逻辑,开销主要取决于长度,而非起始偏移
• 负索引(如 s[-10:] )会先换算成正索引再复制,无额外优化

哪些操作能绕过切片拷贝

真正避免内存复制的方法极少,且都有代价。没有银弹,只有折中。

实操建议:
• 用 re.match()re.search() 提前匹配并捕获,比先切片再判断更省内存(正则引擎内部可做偏移跳转)
• 处理固定格式文本(如 HTTP header、JSON 片段),用 str.find() 定位边界,配合 str.index() 获取下标,再用元组或命名元组存 (start, end) 而非真实切片
• 如果必须大量随机访问子串,且原始字符串长期存在,可手动缓存 memoryview(bytearray(s, 'utf-8')),但要注意:UTF-8 多字节字符不能按字节直接切,否则会得到无效序列

性能影响:
— 切片本身很快(O(n) 拷贝,n 是切片长度),但频繁小切片会触发高频内存分配,增加 GC 压力
— 在容器中存大量短切片(如列表里放十万 s[i:i+5]),实际内存占用可能是原始字符串的数倍

CPython 3.12+ 有没有改进

没有本质改变。3.12 引入了“紧凑字符串”(compact string)作为内部表示,默认启用,但它优化的是单个字符串对象的存储密度(比如 ASCII 字符只用 1 字节/字符),不是切片行为。

兼容性影响:
— 所有已有的切片代码行为完全一致,无需修改
— 第三方 C 扩展若直接访问 PyUnicodeObject 的字段(如 data 指针),可能因紧凑表示失效而崩溃——但这属于未公开 API 的误用,不是切片问题本身

容易被忽略的一点:
字符串驻留(interning)对切片无效。哪怕 s = 'hello world' 被驻留,s[0:5] 仍会新建对象,不会自动去重或复用已有 'hello' 对象。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

441

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

544

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

321

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

81

2025.09.10

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

730

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

551

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

214

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1552

2023.10.24

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

139

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号