Pandas怎么导入数据_read_csv/read_excel常用参数与防乱码指南

P粉602998670

发布时间：2026-03-17 11:50:33

800人浏览过

来源于php中文网

原创

CSV中文乱码需匹配真实编码，常见为GBK或utf-8-sig；dtype须显式指定防类型错误，如手机号用str、含空整数用"Int64"；结构异常用skiprows/header/usecols调整；大文件用chunksize分块处理，nrows仅截断。

pandas怎么导入数据_read_csv/read_excel常用参数与防乱码指南

读 CSV 时中文乱码，`encoding` 参数到底该填啥

乱码不是编码错了，是没对上源文件真实编码。Windows 记事本默认存为 GBK，但 Python 默认按 utf-8 解，一读就崩。

先用编辑器（如 VS Code、Notepad++）打开 CSV 文件，看右下角显示的编码，常见有 GBK、GB2312、utf-8-sig（带 BOM 的 UTF-8）
utf-8 读不了就试试 utf-8-sig，尤其 Excel 另存为 CSV 后经常带 BOM

真不确定就用 chardet 库探测：

import chardet<br>with open("data.csv", "rb") as f:<br>    print(chardet.detect(f.read(10000)))

别硬套 latin-1 —— 它能“不报错”，但中文全变，后续清洗更麻烦

`read_csv` 和 `read_excel` 的 `dtype` 参数怎么用才不翻车

dtype 不是锦上添花，是防止自动类型推断出错的核心防线。比如手机号被读成 int64，开头 0 就没了；日期列被当成字符串，后续 pd.to_datetime 失败率高。

强制指定列类型：dtype={"phone": str, "id": str, "score": float}，注意字符串列必须写 str，不是 "string" 或 "object"
整数列含空值？不能用 int，得用可空整型：dtype={"age": "Int64"}（注意首字母大写，这是 pandas 的 nullable int 类型）
read_excel 对 dtype 支持有限，某些版本会忽略；稳妥做法是先读再用 astype 转，或加 converters 参数：converters={"code": str}

Excel 表格有合并单元格、空行、多表头？`skiprows`、`header`、`usecols` 怎么配

Excel 原始格式往往不是“干净表格”，直接 read_excel 会把合并单元格读成 NaN，把说明文字当数据，把空行列进 DataFrame。

皮卡智能

AI驱动高效视觉设计平台

下载

header 不只是行号，可以是列表，比如表头跨两行：header=[0, 1]，生成 MultiIndex
跳过前 N 行说明文字：skiprows=3；但若第 3 行才是真实表头，要写 skiprows=2, header=0
只读特定列最省内存：usecols="A:C" 或 usecols=[0, 1, 3]，比读完再 drop 快得多
合并单元格无法自动还原，pandas 一律填 NaN；如果必须保留逻辑结构，得靠 openpyxl 手动解析，read_excel 本身不处理这个

读大文件卡死、爆内存？`chunksize` 和 `nrows` 是什么关系

chunksize 不是“分块读取”，是返回一个可迭代对象，每次 yield 一个 DataFrame；nrows 是硬截断，只读前 N 行——两者目的不同，别混用。

查数据概览、试跑逻辑：用 nrows=1000 快速加载样本
逐块处理日志类大 CSV：for chunk in pd.read_csv("big.csv", chunksize=5000): process(chunk)，每块独立内存，不会累积
chunksize 下不能直接用 df.shape，得手动累加；也别在循环里反复 pd.concat，容易内存翻倍——该存中间结果就存文件
Excel 不支持 chunksize，大 Excel 必须转 CSV 再处理，或改用 openpyxl 流式读单元格

编码、类型、结构、规模——这四个点任何一个没对齐，read_csv 和 read_excel 就可能静默出错。特别是 encoding 和 dtype，不报错不代表读对了，得拿原始文件肉眼比对几行。

WPS零基础入门到精通全套教程！

全网最新最细最实用WPS零基础入门到精通全套教程！带你真正掌握WPS办公！内含Excel基础操作、函数设计、数据透视表等

下载

相关标签:

pandas String Float Object for 整型字符串 int 循环 Nullable 对象 bom windows excel Excel 表格

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python字典能做缓存吗_利用字典结构实现LRU本地缓存机制下一篇：暂无

作者最新文章

Python笛卡尔积怎么求_itertools.product多列表嵌套

2026-03-17 09:33

NumPy条件替换怎么做_np.where(condition, x, y)三元表达式向量化

2026-03-17 09:34

如何在Golang中实现SQLite的加密存储 Go语言SQLCipher集成

2026-03-17 09:34

SQL中LEFT JOIN与INNER JOIN区别_数据取舍原则与场景选择

2026-03-17 09:34

Redis如何清理失效的位置数据_利用ZREM指令删除Geo结构中的坐标点

2026-03-17 09:35

CSS如何使用反选伪类简化选择器

2026-03-17 09:35

宝塔面板下phpMyAdmin登录提示“#1862 密码过期”如何修改？

2026-03-17 09:36

mysql如何配置多线程并行回放类型_mysql slave_parallel_type选择

2026-03-17 09:37

MongoDB中可以使用布尔值或枚举值作为分片键吗_极低基数导致无法分块的严重错误

2026-03-17 09:38

mysql如何管理大批量用户的权限_mysql基于角色的权限模板

2026-03-17 09:38

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1091

2023.08.02

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

597

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

108

2025.10.23

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

c++ 字符处理

本专题整合了c++字符处理教程、字符串处理函数相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.17

热门下载

网站特效

网站源码

网站素材

前端模板

Pandas怎么导入数据_read_csv/read_excel常用参数与防乱码指南

读 CSV 时中文乱码，encoding 参数到底该填啥

read_csv 和 read_excel 的 dtype 参数怎么用才不翻车

Excel 表格有合并单元格、空行、多表头？skiprows、header、usecols 怎么配

读大文件卡死、爆内存？chunksize 和 nrows 是什么关系

读 CSV 时中文乱码，`encoding` 参数到底该填啥

`read_csv` 和 `read_excel` 的 `dtype` 参数怎么用才不翻车

Excel 表格有合并单元格、空行、多表头？`skiprows`、`header`、`usecols` 怎么配

读大文件卡死、爆内存？`chunksize` 和 `nrows` 是什么关系