Python3中str为Unicode字符串,bytes为字节序列,通过encode和decode方法按UTF-8等编码规则相互转换,文件读写和网络传输时需注意模式与编码一致性。

Python3 中主要涉及的编码类型是字符串(str)和字节(bytes),它们之间的转换依赖于字符编码规则,如 UTF-8、ASCII、GBK 等。理解这两类数据类型及其转换方式对处理文本和网络传输非常重要。
1. Python3 中的两种核心类型
str:表示 Unicode 字符串,用于存储人类可读的文本。所有字符串在 Python3 中默认就是 str 类型,使用 Unicode 编码。
bytes:表示原始的字节序列,用于存储二进制数据或在网络中传输的数据。
例如:
立即学习“Python免费学习笔记(深入)”;
-
"你好"是 str 类型 -
b"hello"是 bytes 类型
2. str 和 bytes 的相互转换
转换需要指定具体的编码格式,常用的是 UTF-8。
str 转 bytes(编码)
- 使用
.encode(encoding)方法 - 示例:
"中国".encode("utf-8")→b'\xe4\xb8\xad\xe5\x9b\xbd' - 常见编码:
utf-8、gbk、ascii(注意:ASCII 不支持中文)
bytes 转 str(解码)
- 使用
.decode(encoding)方法 - 示例:
b'\xe4\xb8\xad\xe5\x9b\xbd'.decode("utf-8")→"中国" - 如果编码不匹配会报错,比如用 ASCII 解码中文 bytes 会出错
3. 常见问题与注意事项
- 文件读写时注意模式:文本模式(默认)返回 str,需指定 encoding;二进制模式('rb'/'wb')返回 bytes,不进行编码处理
- 网络请求中接收到的数据通常是 bytes,需要 decode 成 str 才能处理
- 不同系统默认编码可能不同,推荐显式指定 UTF-8
- 遇到
UnicodeDecodeError或UnicodeEncodeError时,检查编码是否一致,可使用errors='ignore'或'replace'处理异常字符
4. 实用转换示例
将中文字符串转为 UTF-8 字节再还原:
text = "Python编程"
data = text.encode("utf-8") # str → bytes
print(data) # b'...'
recovered = data.decode("utf-8") # bytes → str
print(recovered) # 输出:Python编程
处理 GBK 编码的旧数据:
gbk_bytes = "你好".encode("gbk")
text = gbk_bytes.decode("gbk")
基本上就这些,掌握 encode 和 decode,明确 str 和 bytes 的区别,就能应对大多数编码问题。










