Python 正确处理 Unicode 字符串的方式

冰川箭仙

发布时间：2026-02-18 13:15:11

239人浏览过

来源于php中文网

原创

python 2 中 str 是字节序列、unicode 才是字符串，python 3 中 str 是 unicode、bytes 才是字节；混用导致多数 unicode 错误，读写文件必须显式指定 encoding，http 响应应优先用 content + 显式 decode，正则需加 re.u 处理中文。

python 正确处理 unicode 字符串的方式

Python 2 和 Python 3 对 `str` 的理解完全不同

Python 2 把 str 当字节序列，unicode 才是真正的字符串；Python 3 反过来：str 是 Unicode 字符串，bytes 才是字节。混用这两者是绝大多数 Unicode 错误的根源。

读文件不加 encoding 参数？默认用系统 locale 解码，Windows 上常是 cp1252，Linux/macOS 上可能是 utf-8 或 ascii —— 同一份代码在不同机器上可能突然报 UnicodeDecodeError
open('file.txt').read() 在 Python 3 中返回 str，但底层读的是字节，它会悄悄用 locale.getpreferredencoding() 去 decode —— 这个值不可靠
用 str.encode() 而不指定编码？默认用 utf-8，但如果你后续要写入数据库或发 HTTP 请求，而对方期望 latin-1 或 gbk，就会出错

读写文件必须显式声明 `encoding`

除非你明确知道自己在处理二进制数据，否则所有文本 I/O 都该带 encoding='utf-8'（或其它确定编码）。

写文件时漏掉 encoding：Python 3 会用 locale 编码写入，中文可能变成乱码，且无法被其他 UTF-8 工具正确读取
读 CSV 文件用 pandas.read_csv() 却没传 encoding？常见报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 123 —— 实际文件是 gbk 编码
用 with open(path, 'w') as f: 写中文却没指定 encoding，Python 3 可能用 utf-8 写成功，但 Windows 记事本默认用 ansi 打开，显示为乱码 —— 这不是 Python 错，是你没控制输出编码

示例：

动态WEB网站中的PHP和MySQL：直观的QuickPro指南第2版

动态WEB网站中的PHP和MySQL详细反映实际程序的需求，仔细地探讨外部数据的验证(例如信用卡卡号的格式)、用户登录以及如何使用模板建立网页的标准外观。动态WEB网站中的PHP和MySQL的内容不仅仅是这些。书中还提到如何串联JavaScript与PHP让用户操作时更快、更方便。还有正确处理用户输入错误的方法，让网站看起来更专业。另外还引入大量来自PEAR外挂函数库的强大功能，对常用的、强大的包

下载

with open('data.txt', 'r', encoding='utf-8') as f:
    text = f.read()  # 安全
<p>with open('out.csv', 'w', encoding='gbk') as f:
f.write('姓名,年龄\n张三,25')  # 明确适配目标环境

HTTP 响应体解码不能只信 `response.text`

Requests 库的 response.text 会尝试从 HTTP headers 或响应内容中猜编码，但这个猜测经常不准，尤其服务端没设 Content-Type: text/html; charset=utf-8 时。

立即学习“Python免费学习笔记（深入）”；

网页源码里有 <meta charset="gb2312">锛

Python gRPC 服务器在 Docker 容器中日志不输出的解决方案

Python 延迟任务的实现方式对比

Python 异常处理对性能的影响

Python 网络超时机制如何设计

Python gRPC 服务在 Docker 容器中日志不输出的解决方案

相关标签:

python json pandas String Object 字符串 position ASCII windows macos 数据库 http linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 日志规范在团队中的落地方法下一篇：如何优化“到最近乘客的最大距离”算法实现

作者最新文章

GitHub 怎么运行别人的代码？GitHub 项目运行完整流程讲解

2026-02-16 12:41

扫描全能王怎么下载pdf文件_扫描全能王文档导出PDF教程

2026-02-16 12:49

Python 闰秒处理的正确姿势

2026-02-16 12:55

微信电脑怎么登录没有手机微信电脑无手机登录方法

2026-02-16 13:13

浏览器f12开发者工具使用教程元素审查、Network抓包与Console调试入门

2026-02-16 13:20

Linux 源列表管理与优化策略

2026-02-16 13:42

edge浏览器同步历史记录同步范围与隐私选项说明

2026-02-16 13:52

Python mock 过度使用的问题分析

2026-02-16 13:59

SQL XA 分布式事务的二阶段提交与单机事务性能代价权衡

2026-02-16 14:05

Linux chmod、chown、chgrp 使用技巧

2026-02-16 14:21

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

442

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23