Python duckdb 的 Python API 嵌入式分析

冷炫風刃

发布时间：2026-02-19 12:49:34

984人浏览过

来源于php中文网

原创

duckdb.connect() 默认创建内存数据库，不持久化；需显式指定文件路径如 duckdb.connect("data.duckdb") 才能持久化，且推荐用 df.to_arrow() + register() 加载大 pandas 数据以提升性能。

python duckdb 的 python api 嵌入式分析

duckdb.connect() 默认是内存数据库，不持久化

很多人以为 duckdb.connect() 会自动读写当前目录下的 my.db 文件，其实它默认创建的是纯内存数据库——进程一关，数据全丢。这不是 bug，是设计如此。

实操建议：

要持久化，必须显式传入文件路径：duckdb.connect("data.duckdb")
路径不存在时会自动创建；存在时直接打开并复用已有表结构和数据
如果路径写成 ":memory:"（显式声明），效果和不传参数一样，仍是内存模式
注意文件权限：Linux/macOS 下若路径在只读目录，会静默失败或报 IOError: Unable to open file

df.to_arrow() → register() 是高效加载 Pandas 的关键路径

直接用 con.execute("INSERT INTO t SELECT * FROM df") 看似自然，但对大 df 极慢——DuckDB 会把 DataFrame 全部转成 Python 对象再逐行插入。

正确做法是绕过 Python 层，走 Arrow 零拷贝通道：

立即学习“Python免费学习笔记（深入）”；

PPT.CN,PPTCN,PPT.CN是什么,PPT.CN官网,PPT.CN如何使用

一键操作，智能生成专业级PPT

下载

先调 df.to_arrow() 得到 pyarrow.Table
再用 con.register("t", arrow_table) 注册为临时表
后续所有 SQL 查询都可直接引用 t，性能接近原生读 Parquet
别注册同名表两次，否则会报 RuntimeError: Catalog Error: Table with name t already exists

SQL 执行后不 fetch 就没结果，且 cursor 不自动关闭

DuckDB 的 con.execute() 返回的是 duckdb.DuckDBPyConnection 自身，不是 cursor 对象；真正执行和取数靠链式调用，容易漏掉最后一步。

常见错误现象：

con.execute("SELECT count(*) FROM t") 运行完屏幕没输出，也没报错——其实结果已准备好，但没取
要用 .fetchall() 或 .fetchnumpy() 显式拉取，比如：con.execute("SELECT * FROM t").fetchnumpy()
长时间运行的脚本里，反复 execute 却不 fetch，可能累积内存（尤其大结果集）
连接不用时建议手动 con.close()，虽然 Python GC 通常能回收，但嵌入式场景下资源释放更可控

WHERE 条件里用 Python 变量得用参数化，别拼字符串

写 con.execute(f"SELECT * FROM t WHERE id = {user_id}") 看起来快，但有 SQL 注入风险，且 DuckDB 对非字面量类型推断不稳定（比如 None 会被当成字符串）。

应该用问号占位符 + 参数元组：

con.execute("SELECT * FROM t WHERE id = ?", [user_id])
支持多参数：con.execute("WHERE a > ? AND b IN (?, ?)", [10, "x", "y"])
参数类型由 Python 值自动映射（int→INTEGER，str→VARCHAR），比手动 cast 更稳
如果参数是 None，DuckDB 正确转为 SQL NULL；而字符串拼接里 "None" 就真成了字符串字面量

嵌入式分析里最常被忽略的，其实是连接生命周期和数据加载路径的选择——不是所有 DataFrame 都适合注册成表，小数据直接用 df 当 SQL 表名也行（DuckDB 支持），但一旦超过几百万行，Arrow 路径就是分水岭。

如何在 Python for 循环中高效跳过指定数字区间

Python 3 类型提示装饰器：精准保留被装饰函数签名的参数类型推断

Python 模型服务的 autoscaling

Python 中无需计数器或 enumerate 的单行循环截断技巧

Python 服务版本兼容的接口设计

相关标签:

python sql pandas Integer NULL count select Error register 字符串 int 对象 table macos 数据库 linux bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Flask 中通过 URL 路径参数安全传递文件名实现删除功能的完整教程下一篇：Python GIL 对多线程性能的影响

作者最新文章

edge的插件在哪个文件夹扩展存储路径说明

2026-02-16 13:27

Python CAPTCHA 的服务端验证实践

2026-02-16 13:28

Python 消息幂等消费的防重表设计

2026-02-16 13:29

Python 3.12+ 的新特性在生产代码中的逐步引入

2026-02-16 13:47

Python 批量文件重命名的工程化方案

2026-02-16 13:47

Python CSRF 防护的 double submit cookie 方案

2026-02-16 14:05

edge浏览器主页怎么设置启动时页面与新标签页配置步骤

2026-02-16 14:05

Linux tc mirred 的流量镜像与容器网络诊断实践

2026-02-16 14:08

腾讯会议电脑版官方下载官网

2026-02-16 14:17

Python ONNX Runtime 的 GPU 加速部署

2026-02-16 14:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

985

2023.10.12