0

0

Pandas怎么导入数据_read_csv/read_excel常用参数与防乱码指南

P粉602998670

P粉602998670

发布时间:2026-03-17 11:50:33

|

800人浏览过

|

来源于php中文网

原创

CSV中文乱码需匹配真实编码,常见为GBK或utf-8-sig;dtype须显式指定防类型错误,如手机号用str、含空整数用"Int64";结构异常用skiprows/header/usecols调整;大文件用chunksize分块处理,nrows仅截断。

pandas怎么导入数据_read_csv/read_excel常用参数与防乱码指南

读 CSV 时中文乱码,encoding 参数到底该填啥

乱码不是编码错了,是没对上源文件真实编码。Windows 记事本默认存为 GBK,但 Python 默认按 utf-8 解,一读就崩。

  • 先用编辑器(如 VS Code、Notepad++)打开 CSV 文件,看右下角显示的编码,常见有 GBKGB2312utf-8-sig(带 BOM 的 UTF-8)
  • utf-8 读不了就试试 utf-8-sig,尤其 Excel 另存为 CSV 后经常带 BOM
  • 真不确定就用 chardet 库探测:
    import chardet<br>with open("data.csv", "rb") as f:<br>    print(chardet.detect(f.read(10000)))
  • 别硬套 latin-1 —— 它能“不报错”,但中文全变 ,后续清洗更麻烦

read_csvread_exceldtype 参数怎么用才不翻车

dtype 不是锦上添花,是防止自动类型推断出错的核心防线。比如手机号被读成 int64,开头 0 就没了;日期列被当成字符串,后续 pd.to_datetime 失败率高。

  • 强制指定列类型:dtype={"phone": str, "id": str, "score": float},注意字符串列必须写 str,不是 "string""object"
  • 整数列含空值?不能用 int,得用可空整型:dtype={"age": "Int64"}(注意首字母大写,这是 pandas 的 nullable int 类型)
  • read_exceldtype 支持有限,某些版本会忽略;稳妥做法是先读再用 astype 转,或加 converters 参数:converters={"code": str}

Excel 表格有合并单元格、空行、多表头?skiprowsheaderusecols 怎么配

Excel 原始格式往往不是“干净表格”,直接 read_excel 会把合并单元格读成 NaN,把说明文字当数据,把空行列进 DataFrame。

皮卡智能
皮卡智能

AI驱动高效视觉设计平台

下载
  • header 不只是行号,可以是列表,比如表头跨两行:header=[0, 1],生成 MultiIndex
  • 跳过前 N 行说明文字:skiprows=3;但若第 3 行才是真实表头,要写 skiprows=2, header=0
  • 只读特定列最省内存:usecols="A:C"usecols=[0, 1, 3],比读完再 drop 快得多
  • 合并单元格无法自动还原,pandas 一律填 NaN;如果必须保留逻辑结构,得靠 openpyxl 手动解析,read_excel 本身不处理这个

读大文件卡死、爆内存?chunksizenrows 是什么关系

chunksize 不是“分块读取”,是返回一个可迭代对象,每次 yield 一个 DataFrame;nrows 是硬截断,只读前 N 行——两者目的不同,别混用。

  • 查数据概览、试跑逻辑:用 nrows=1000 快速加载样本
  • 逐块处理日志类大 CSV:for chunk in pd.read_csv("big.csv", chunksize=5000): process(chunk),每块独立内存,不会累积
  • chunksize 下不能直接用 df.shape,得手动累加;也别在循环里反复 pd.concat,容易内存翻倍——该存中间结果就存文件
  • Excel 不支持 chunksize,大 Excel 必须转 CSV 再处理,或改用 openpyxl 流式读单元格

编码、类型、结构、规模——这四个点任何一个没对齐,read_csvread_excel 就可能静默出错。特别是 encodingdtype,不报错不代表读对了,得拿原始文件肉眼比对几行。

WPS零基础入门到精通全套教程!
WPS零基础入门到精通全套教程!

全网最新最细最实用WPS零基础入门到精通全套教程!带你真正掌握WPS办公! 内含Excel基础操作、函数设计、数据透视表等

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1091

2023.08.02

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

597

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

108

2025.10.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

c++ 字符处理
c++ 字符处理

本专题整合了c++字符处理教程、字符串处理函数相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号