Pandas如何连接数据库_read_sql()与SQLAlchemy读取MySQL数据

P粉602998670

发布时间：2026-03-14 09:10:31

986人浏览过

来源于php中文网

原创

根本原因是未传入有效的数据库连接对象；pd.read_sql()需SQLAlchemy Engine实例，而非URL字符串或Connection对象，且须确保字符集（utf8mb4）、时区配置正确，并用chunksize分块处理大表。

pandas如何连接数据库_read_sql()与sqlalchemy读取mysql数据

为什么 `pd.read_sql()` 读 MySQL 总是报 `TypeError: 'NoneType' object is not callable`

根本原因是没传对数据库连接对象——pd.read_sql() 要的是一个能执行 SQL 的“连接句柄”，不是 SQLAlchemy 的 Engine 或 Connection 对象本身，更不是字符串 URL。

常见错误写法：pd.read_sql("SELECT * FROM users", "mysql://user:pass@localhost/db") —— 这里第二个参数是 URL 字符串，但 read_sql() 不会自动解析它，直接当连接对象用就崩了。

正确做法：必须先用 SQLAlchemy 创建 Engine，再把它传进去（Engine 支持 connect() 方法，所以被接受）
不推荐用 create_engine(...).connect() 后的结果传入：那是 Connection 对象，虽然能用，但容易漏关连接、引发连接泄漏
如果用的是 PyMySQL 或 mysqlclient 底层驱动，确保已安装对应包（pip install PyMySQL），否则 create_engine 会静默 fallback 到不兼容的驱动

from sqlalchemy import create_engine
import pandas as pd
<p>engine = create_engine("mysql+pymysql://user:pass@localhost:3306/db")
df = pd.read_sql("SELECT id, name FROM users LIMIT 10", engine)

`read_sql_query()` 和 `read_sql_table()` 该选哪个？

二者底层都调用 read_sql()，但语义和限制不同，选错会导致意外行为或报错。

read_sql_query()：只接受 SQL 查询字符串，比如 SELECT、带 WHERE 或子查询的语句；不能填表名，否则报 DatabaseError: Execution failed on sql...
read_sql_table()：只接受表名（字符串），内部拼 SELECT * FROM {table}；不支持 JOIN、WHERE、别名，也不能读视图（部分数据库不支持）
性能上没本质区别，但 read_sql_table() 在某些方言下会额外查元数据（比如字段类型），略慢一点；而复杂查询必须用 read_sql_query()

如果你要加条件、分页、聚合，老老实实用 read_sql_query()；如果只是全量导出一张小表，read_sql_table() 写起来少几个字符，但别指望它更高效。

Vondy

下一代AI应用平台，汇集了一流的工具/应用程序

下载

MySQL 中文乱码、datetime 字段变 NaT 怎么办？

这不是 Pandas 的锅，是连接层编码和时区没对齐。SQLAlchemy 默认不强制设置字符集和时区，MySQL 客户端协议一松懈，数据就变形。

在连接 URL 末尾加上 ?charset=utf8mb4（不是 utf8！MySQL 的 utf8 实际是 utf8mb3，不支持 emoji）
显式指定时区：URL 加 &timezone=UTC，或创建 engine 时传 connect_args={"timezone": "UTC"}
如果 MySQL 服务端时区是 +08:00，而 Python 环境默认 UTC，DATETIME 字段可能被错误转换成 NaT，尤其配合 parse_dates 参数时
pd.read_sql(..., parse_dates=["created_at"]) 对 NULL 值敏感，字段含空值时建议先用 dtype 指定为 string，再手动转

engine = create_engine(
    "mysql+pymysql://user:pass@localhost:3306/db?charset=utf8mb4&timezone=UTC"
)

大表怎么读才不 OOM？

直接 read_sql("SELECT * FROM huge_table", engine) 很容易把内存吃光，尤其字段多、文本长的时候。Pandas 本身不支持流式读取，得靠分块绕过去。

用 chunksize 参数（单位是行数），返回的是 TextFileReader 迭代器，每次只载入一块：
别用 for df in pd.read_sql(..., chunksize=10000) 然后拼 pd.concat——这等于又全加载进内存了
真正省内存的做法：每块单独处理（比如清洗后存 CSV / 写数据库 / 统计中间结果），不保留原始块
注意：chunksize 对 read_sql_table() 有效，但对含 ORDER BY 或 LIMIT 的 read_sql_query() 无效（SQL 层无法分块）

如果真要分页查大表，得自己写带 OFFSET/LIMIT 的循环，或者用主键范围（如 id BETWEEN ? AND ?）来切片，避免深分页性能坍塌。

相关标签:

sql mysql pandas pip String Object NULL for select 字符串循环切片对象 table 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Django 静态资源路径在 Vercel 生产环境中的正确配置方案下一篇：Python pathlib怎么用_面向对象路径操作库Path使用详解

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1134

2023.10.12