0

0

如何在 CSV 文件中动态定位数据起始行并用 Pandas 读取

花韻仙語

花韻仙語

发布时间:2026-02-05 12:09:01

|

778人浏览过

|

来源于php中文网

原创

如何在 CSV 文件中动态定位数据起始行并用 Pandas 读取

csv 文件头部存在不固定长度的元信息(如标题、说明、空行等),且关键列头(如 `[deal type]`)是唯一可靠定位标识时,可通过逐行扫描文件流跳过无关内容,再将剩余部分交由 `pandas.read_csv()` 解析,避免重复读取或硬编码行号。

在实际数据处理场景中,许多业务系统导出的 CSV 并非标准格式:前若干行常包含报表名称、生成时间、机构信息、分隔线等非结构化内容,而真正用于分析的表格数据往往从某个特征性列头(例如 [Deal Type]、"ID,Name,Amount" 或 "交易类型,客户编号,金额")才开始。由于这类“前导噪声”的行数每日变动,skiprows 参数无法静态设定,而一次性加载全文本再用字符串查找又浪费内存——最优解是利用 Python 文件对象的迭代特性,在流式读取中精准定位起始点,并将后续行直接传递给 Pandas

以下为推荐实现方式(兼容真实文件与内存模拟):

import pandas as pd

def read_csv_from_header(filepath, header_marker="[Deal Type]"):
    """
    从指定标记行开始读取 CSV,支持任意长度前导内容。

    Parameters:
    -----------
    filepath : str
        CSV 文件路径
    header_marker : str
        标识数据起始的首行文本(支持子串匹配,如 "[Deal Type]" 或 "Deal Type")

    Returns:
    --------
    pd.DataFrame
        解析后的数据框,自动推断列名与数据类型
    """
    with open(filepath, 'r', encoding='utf-8') as f:
        # 逐行扫描,跳过所有非目标行
        for line in f:
            if header_marker in line or line.strip().startswith(header_marker):
                # 找到后,当前 file 对象指针已位于目标行之后
                # 使用 f 作为 StringIO 类似的数据流传入 read_csv
                return pd.read_csv(f, skipinitialspace=True)

    raise ValueError(f"未在文件 {filepath} 中找到标记行: '{header_marker}'")

# ✅ 使用示例(真实文件)
# df = read_csv_from_header("daily_report.csv")

# ✅ 使用示例(测试用字符串模拟)
from io import StringIO

test_data = """Counterparty Name
ID Number

.
.

Asset
USD.HO
USD.LCO
USD.RB

Cpty:
Product:

[Deal Type], [column], [value]
A, 100, 25.5
B, 200, 32.1
C, 150, 28.7
"""

df = read_csv_from_header(StringIO(test_data))
print(df)

关键要点说明:

玄鲸Timeline
玄鲸Timeline

一个AI驱动的历史时间线生成平台

下载
  • 单次流式读取:文件仅打开一次,无内存冗余;for line in f 内部维护文件指针,break 后 f 仍可继续读取后续内容。
  • 灵活匹配:使用 in 或 startswith() 支持带括号、空格、方括号等变体写法(如 "[Deal Type]"、"Deal Type"、"Deal Type,")。
  • 健壮容错:添加异常提示,避免静默失败;skipinitialspace=True 自动清理列名/数据前导空格。
  • ⚠️ 注意事项:确保标记行本身不被解析为数据行(即该行是纯列头,不含逗号分隔的实际值);若标记行含特殊字符(如 [ ]),需确认 CSV 引擎能正确处理——通常 pd.read_csv() 默认支持,必要时可加 quoting=csv.QUOTE_MINIMAL。

此方法兼具简洁性、效率与可维护性,是处理“脏 CSV”头信息的工业级实践方案。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

72

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

3

2026.01.31

java中break的作用
java中break的作用

本专题整合了java中break的用法教程,阅读专题下面的文章了解更多详细内容。

119

2025.10.15

java break和continue
java break和continue

本专题整合了java break和continue的区别相关内容,阅读专题下面的文章了解更多详细内容。

258

2025.10.24

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

381

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

213

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1506

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

630

2023.11.24

java return合集
java return合集

本专题整合看java中return关键词的用途,语句的使用等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.02.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号