
字符串切片:[start:end:step] 是最常用也最容易出错的方式
切片不是函数,是 Python 字符串的内置语法,但很多人误以为 str[0:5] 会包含第 5 个字符——其实 end 是**不包含**的。负索引、越界、空切片都按静默规则处理,不会报错。
-
s = "hello"→s[1:100]返回"ello"(自动截断到末尾) -
s[-3:-1]返回"ll"(负索引从右往左数,-1 是最后一个字符,不包含) -
s[3:1]返回空字符串""(start ≥ end 时直接返回空) - 省略
start或end会取默认边界:s[:3]等价于s[0:3],s[2:]从索引 2 到末尾
str.split() 按分隔符拆分,但默认行为和空格处理常被忽略
split() 不传参数时,会以任意空白字符(空格、\t、\n、\r)为界,并**自动合并连续空白**,且**前后空白会被忽略**。这和按 ' ' 显式分割完全不同。
-
"a b\t\n c".split()→['a', 'b', 'c'](三段非空内容) -
"a b\t\n c".split(' ')→['a', '', 'b\t\n', 'c'](按字面空格切,保留空项) - 指定
maxsplit=1可控制最多切几刀:"a:b:c".split(':', 1)→['a', 'b:c'] - 如果分隔符不存在,
split()返回原字符串组成的单元素列表:"abc".split('|')→['abc']
正则 re.split() 和 re.findall() 适合复杂模式,但性能与贪婪性需留意
当分隔逻辑含“多个空格”“数字+字母混合边界”或“括号嵌套”时,split() 就不够用了。正则能表达语义,但要注意:默认 re.split() 会丢弃匹配到的分隔符;而 re.findall() 更适合提取目标片段而非切分。
-
re.split(r'\s+', "a b\tc")→['a', 'b', 'c'](等效于split()默认行为,但可控) - 用捕获组
()可保留分隔符:re.split(r'(\.)', "a.b.c")→['a', '.', 'b', '.', 'c'] -
re.findall(r'\d+', "x12y34z")→['12', '34'](提取所有连续数字,比先split()再过滤更直接) - 避免过度贪婪:
re.findall(r'a.*b', 'a1b2a3b')匹配整个'a1b2a3b',改用r'a.*?b'得到两个结果
str.partition() 和 str.rpartition() 专为“找第一个/最后一个分隔符”设计
这两个方法返回三元组 (before, sep, after),比 split(sep, 1) 更明确、更安全——即使分隔符不存在,也保证返回三个元素,不会索引错误。
立即学习“Python免费学习笔记(深入)”;
"hello-world.py".partition('.') → ('hello-world', '.', 'py')-
"file".partition('.') → ('file', '', '')(后两元素为空,不会抛IndexError) -
"a/b/c".rpartition('/') → ('a/b', '/', 'c')(只看最后一次出现) - 相比
split('.', 1)[0],partition()不需要异常处理或长度判断,语义更清晰
真正难的不是记住哪几种方法,而是遇到一个具体字符串要截取时,得立刻判断:这是固定位置?有明确分隔符?还是带语义的模式?选错方法会导致后续逻辑补丁越来越多。比如用 split(' ') 处理用户输入的姓名字段,遇到中间多空格就崩;用切片硬写 s[0:s.find(':')] 却忘了 find() 找不到返回 -1 ——这些都不是“不会”,而是没想清楚边界怎么定义。











