0

0

Python怎样操作Parquet文件?pyarrow高效读写

看不見的法師

看不見的法師

发布时间:2025-08-13 19:36:02

|

923人浏览过

|

来源于php中文网

原创

最核心且高效的工具是pyarrow库,1. 使用pyarrow可将pandas dataframe转换为table对象并写入parquet文件;2. 通过pq.read_table读取数据,支持列筛选和高效过滤;3. parquet采用列式存储,相比csv或json能大幅减少i/o开销,提升查询效率,尤其适合大数据场景下的高性能数据处理。

Python怎样操作Parquet文件?pyarrow高效读写

Python操作Parquet文件,最核心且高效的工具就是

pyarrow
库。它不仅提供了与底层Apache Arrow C++库无缝对接的性能优势,还能让你以非常灵活的方式处理各种数据结构,无论是简单的表格数据还是复杂的嵌套类型。可以说,在Python的数据生态里,
pyarrow
是处理Parquet文件的首选。

要用

pyarrow
读写Parquet文件,基本流程其实挺直观的。

先说写。通常,我们会把数据转换成

pyarrow.Table
对象。这玩意儿就像一个内存中的表格,包含了列名、数据类型以及实际的数据。

立即学习Python免费学习笔记(深入)”;

import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
import numpy as np

# 假设我们有一些数据,可以是Pandas DataFrame
data = {
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'value': [10.5, 20.1, 15.0, 25.8],
    'timestamp': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'])
}
df = pd.DataFrame(data)

# 将Pandas DataFrame转换为pyarrow Table
# 这一步很关键,pyarrow会自动推断Pandas的类型到Arrow类型
table = pa.Table.from_pandas(df)

# 写入Parquet文件
# 这里可以指定压缩方式,比如'snappy'、'gzip'、'brotli'、'zstd'
# 'snappy'通常是性能和压缩比的良好平衡
pq.write_table(table, 'my_data.parquet', compression='snappy')
print("数据已成功写入 my_data.parquet")

# 如果想分块写入,或者处理非常大的文件,可以考虑ParquetWriter
# with pq.ParquetWriter('large_data.parquet', table.schema) as writer:
#     writer.write_table(table_chunk_1)
#     writer.write_table(table_chunk_2)
#     # ... 这种方式适合流式写入,但对大多数日常使用,直接write_table更方便

再来看读。读Parquet文件同样简单,

pyarrow
会把文件内容加载成一个
pyarrow.Table
对象。

阿里妈妈·创意中心
阿里妈妈·创意中心

阿里妈妈营销创意中心

下载
# 从Parquet文件读取数据
read_table = pq.read_table('my_data.parquet')
print("\n从Parquet文件读取的数据:")
print(read_table)

# 如果想转回Pandas DataFrame,也很方便
read_df = read_table.to_pandas()
print("\n转换回Pandas DataFrame:")
print(read_df)

# 有时候你可能只想要读取部分列,或者根据条件过滤行,pyarrow也支持
# 比如,只读取 'name' 和 'value' 列
partial_table = pq.read_table('my_data.parquet', columns=['name', 'value'])
print("\n只读取部分列的数据:")
print(partial_table)

# 甚至可以利用Parquet的列式存储特性进行高效过滤(下推谓词)
# 不过,这需要文件本身有统计信息,并且查询条件能被Parquet引擎理解
# read_table_filtered = pq.read_table('my_data.parquet', filters=[('value', '>', 20)])
# print("\n过滤后的数据:")
# print(read_table_filtered)

这里有个小细节,

pq.read_table
在读取时,如果Parquet文件很大,它不会一次性把所有数据都加载到内存。它会做一些优化,比如只加载你需要的列,或者在你遍历时才真正读取数据块。这是它高效的一个体现。

为什么选择Parquet格式?它比CSV或JSON有什么优势?

我个人觉得,选择Parquet,很大程度上是看中了它在大数据场景下的性能和效率。跟CSV或JSON比起来,它简直是降维打击。

Parquet首先是列式存储。这意味着什么呢?想象一下你的数据像一张大表格。CSV和JSON是按行存的,你要读取一行,就把这一行的所有数据都读出来。但Parquet不一样,它把同一列的数据紧挨着存放在一起。这样一来,如果你只需要查询几列数据(比如只看用户ID和姓名,不关心地址、电话),Parquet就只需要读取那几列的数据块,而不是整行数据。这在处理宽表时,能显著减少I/O开销,速度快得不是一点半点。

Parquet内置了**高效的

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

458

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

84

2025.09.10

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

338

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

225

2025.10.31

Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建
Nginx跨平台安装实操指南:Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者,均可快速搭建运行环境,掌握跨平台核心指令,为后续配置与调优奠定坚实基础。

9

2026.03.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号