Python ibis 的 DuckDB / BigQuery 统一后端

冷漠man

发布时间：2026-02-14 22:54:19

334人浏览过

来源于php中文网

原创

必须用对应后端的 connect 函数：ibis.duckdb.connect() 用于本地 duckdb，ibis.bigquery.connect() 用于 bigquery；混用会报 notimplementederror 或静默降级；连接后需立即用 con.list_tables() 验证。

python ibis 的 duckdb / bigquery 统一后端

用 `ibis.duckdb.connect()` 还是 `ibis.bigquery.connect()`？别混着用

不同后端必须用对应 connect 函数初始化连接，ibis.connect("duckdb://") 和 ibis.connect("bigquery://") 表面统一，实则底层完全隔离。混用会导致 NotImplementedError: Operation not supported for backend 或静默降级为 pandas 执行（查不到数据还报错）。

实操建议：

立即学习“Python免费学习笔记（深入）”；

明确后端类型再选函数：ibis.duckdb.connect() 用于本地 .db 文件或内存 DB；ibis.bigquery.connect() 必须配 project_id 和认证凭据
不要依赖 ibis.connect() 的自动推断——它对 DuckDB 支持不稳定，BigQuery 则根本不会识别 URL 中的 project 信息
连接后立刻验证：con.list_tables() 看是否返回预期表名，避免后续执行时才发现连错库

`ibis.table()` 加 schema 定义不是可选项

DuckDB 能自动 infer 表结构，BigQuery 不行。不显式传 schema 参数，BigQuery 会报 TypeError: Cannot determine type of column 'xxx'，尤其遇到 DATE、TIME、嵌套字段时更敏感。

实操建议：

立即学习“Python免费学习笔记（深入）”；

定义表时强制加 schema：t = con.table("my_table", schema={"ts": "timestamp", "user_id": "int64", "meta": "struct<city: string tags: array>>"})</city:>
DuckDB 也建议加——避免因空值列推断成 string，后续 join 或 filter 出现隐式转换失败
从 BigQuery 导出 schema 可用 bq show --format=prettyjson project:dataset.table | jq '.schema.fields' 快速转成 ibis 字段字典

SQL 生成差异：DuckDB 允许 `SELECT *`，BigQuery 要求显式列名

ibis.table("t").select("*") 在 DuckDB 下正常生成 SQL，在 BigQuery 下会抛 CompileError: Wildcard not allowed in SELECT list。这不是 ibis bug，是 BigQuery 引擎限制。

DomoAI

一个前沿的AI图像和视频生成平台，提供一系列预先设置的AI模型

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

永远避免 .select("*")，改用 .select(t)（t 是表对象）或 .select(*t.columns)
如果要动态选列，先 t.columns 获取列表，过滤掉不支持的类型（如 ARRAY 列不能直接参与 GROUP BY）再构造 select
注意 ibis.coalesce() 在 BigQuery 里会生成 COALESCE，但 DuckDB 对 NULL 处理更宽松；两边都用 ibis.where() 替代部分 coalesce 场景更稳

写入行为不一致：DuckDB 支持 `.to_parquet()`，BigQuery 只能 `.execute()` + INSERT

t.to_parquet("out.parquet") 在 DuckDB 后端有效，在 BigQuery 后端直接报 AttributeError: 'BigQueryBackend' object has no attribute 'to_parquet'。所有写操作必须走执行路径，且需区分临时表和目标表权限。

实操建议：

立即学习“Python免费学习笔记（深入）”；

写入逻辑必须分支处理：if isinstance(con, ibis.backends.duckdb.Backend): t.to_parquet(...)；否则用 con.create_table("dst", t.execute(), overwrite=True)
BigQuery 写入前确认 dataset 存在且有 bigquery.tables.create 权限；DuckDB 写入注意路径权限和磁盘空间
大结果集别用 .execute().to_pandas() 中转——BigQuery 可能 OOM，DuckDB 则丢精度（timestamp 亚秒级截断）；优先用 .to_pyarrow() 或流式 fetch

跨后端最麻烦的不是语法，而是“看起来一样、执行时才崩”的隐性差异。比如同一段 ibis.date_add() 在 DuckDB 返回 date，在 BigQuery 返回 timestamp，下游 cast 一漏就全错。得把每个函数的返回类型当契约来读，不能只看文档示例。

Python asyncio.shield 的保护场景

Python 优先队列的实现思路

Python ML 模型的影子部署

Python GitHub Actions 的 self-hosted runner 安全

Python OAuth 与 OpenID Connect 的配置

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 时间戳与纳秒精度的存储选择下一篇：Python 引用循环的 gc.collect 强制触发时机

作者最新文章

红米手机微信电话铃声不响_红米手机微信铃声设置修复教程

2026-02-13 10:47

HTTPS://MANWA.3ME漫蛙MANWA怎么切漫蛙直达入口

2026-02-13 10:51

发票抽奖是专票还是普票发票抽奖什么时候开始实施

2026-02-13 11:08

HTTP://YANDEX.COM YANDEX COM入口

2026-02-13 11:08

发票抽奖在税务系统怎么参加发票抽奖注意事项和技巧

2026-02-13 11:26

华为为什么卖掉荣耀荣耀独立出售原因解析

2026-02-13 12:02

战神三部曲重制版预告公布战神三部曲重制版最新消息

2026-02-13 12:07

崩坏:星穹铁道4.0最新攻略星铁4.0全流程指南【一图流】

2026-02-13 12:07

有兽焉全新OP播放链接有兽焉新OP官方画面网页入口

2026-02-13 12:17

rsync 报 "no space left on device" 的目标磁盘 inode / 权限检查

2026-02-13 14:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

942

2023.10.12