0

0

使用PHP解析固定宽度数据文件(.out)并导出为CSV或SQL

碧海醫心

碧海醫心

发布时间:2025-11-27 13:05:36

|

625人浏览过

|

来源于php中文网

原创

使用PHP解析固定宽度数据文件(.out)并导出为CSV或SQL

本教程详细介绍了如何利用php解析无分隔符的固定宽度数据文件(如`.out`文件)。核心内容包括定义数据字段的名称和长度,使用php的`unpack()`函数高效提取每行数据,并最终将解析后的结构化数据导出为csv格式文件。此csv文件可作为中间步骤,方便后续导入到sql数据库,特别适用于处理包含有意义空白字符的数据。

在许多遗留系统或特定数据交换场景中,我们经常会遇到固定宽度(Fixed-Width)的数据文件。这类文件的特点是,数据记录中的每个字段都占据预设的固定字符长度,字段之间没有明确的分隔符。即使是空白字符,也可能代表数据的一部分,甚至是空值(NULL)。本教程将指导您如何使用PHP有效地解析这类文件,并将其转换为更易于处理的CSV或SQL格式。

1. 理解固定宽度数据格式

固定宽度数据文件的每一行都是一条记录,每条记录中的字段通过其在行中的起始位置和结束位置来定义。例如,第一个字段可能从第1个字符开始,到第10个字符结束;第二个字段从第11个字符开始,到第20个字符结束,依此类推。

示例记录:

I299207075410 07  OCCLUSAL-HP                        LIQ17%                          LMedicis              B000001000000000001EA 8428010080529100   1072363   20030101000000016750000000016750000000000167500200101010000000000000000000000000000000001218000000000000000000000000000000000000000000000000020021231262436018510(W/BRUSH APPLICATOR)     TPLIQ     
 299207085060R01  LUZU                               CRE1%                           SBausch               C000006000000000001EA 8404080054930829 1 1309011   20180105000000590530000000098421700000000902967000000000000000000000000000000000000000000000000000000000000000000000000000000                                     TPCRE     

在上述示例中,您可以看到一些字段可能由纯数字或字母组成,而另一些字段则包含大量的空白字符。这些空白字符并非无关紧要,它们是字段长度的一部分,甚至可能表示该字段的空值。例如,第一条记录的第一个字段是 "I",长度为1。第二条记录的第一个字段是一个空白字符,也占据1个长度,代表空值。

立即学习PHP免费学习笔记(深入)”;

2. 定义数据字段结构

解析固定宽度文件的关键一步是准确地定义每个字段的名称和其所占用的字符长度。这通常需要您了解源文件的具体布局或查阅相关文档。

在PHP中,我们可以使用一个关联数组来存储这些定义,其中键是字段名,值是字段的长度。

 1,   // 第一个字段,长度1
    'id2'       => 12,  // 第二个字段,长度12
    'code'      => 5,   // 第三个字段,长度5
    'category'  => 35,  // ...
    'code2'     => 32,
    'category2' => 22,
    'code3'     => 22,
    'code5'     => 17,
    'code6'     => 2,
    'code7'     => 10,
    'code8'     => 186,
    'code9'     => 10
];

// ... 后续代码

重要提示: fields 数组中的长度必须与源文件中每个字段的实际长度完全匹配。任何一个字段的长度定义错误都可能导致后续字段的解析偏移,从而产生错误的数据。

3. 使用PHP unpack() 函数解析数据

PHP的unpack()函数是处理二进制字符串和固定宽度文本数据的强大工具。它允许您根据预定义的格式字符串从二进制数据中提取信息。对于固定宽度文本,我们可以使用A格式字符,它表示“ASCII字符串,以空字符或空格填充”。

解析流程:

标贝AI虚拟主播
标贝AI虚拟主播

一站式虚拟主播视频生产和编辑平台

下载
  1. 读取源文件: 使用file()函数将整个.out文件按行读入一个数组。
  2. 构建unpack格式字符串: 遍历$fields数组,为每个字段生成一个A{length}{name}格式的字符串。这些字符串随后用斜杠/连接起来,形成unpack()函数所需的总格式字符串。
  3. 逐行解析数据: 遍历文件中的每一行,对每行应用构建好的unpack()格式字符串来提取数据。unpack()会返回一个关联数组,其中键是您定义的字段名,值是提取出的数据。
  4. 收集解析结果: 将每行解析出的数据存储到一个新的数组中。

PHP代码示例:

 1,
    'id2'       => 12,
    'code'      => 5,
    'category'  => 35,
    'code2'     => 32,
    'category2' => 22,
    'code3'     => 22,
    'code5'     => 17,
    'code6'     => 2,
    'code7'     => 10,
    'code8'     => 186,
    'code9'     => 10
];

// 构建 unpack 格式字符串
$unpack = [];
foreach ($fields as $name => $length) {
    // 'A' 表示 ASCII 字符串,后面跟着长度和字段名
    $unpack[] = 'A'.$length.$name;
}
$unpack_string = implode('/', $unpack); // 使用 '/' 连接所有字段的格式

// 存储解析后的数据
$data = [];
foreach ($raw as $line) {
    // 去除行末的换行符,确保 unpack 正确处理固定长度
    $line = rtrim($line, "\r\n"); 
    $data[] = unpack($unpack_string, $line);
}

// 调试输出解析结果(可选)
// var_dump($data); 

执行上述代码后,$data数组将包含一个多维数组,每个子数组代表源文件中的一行记录,其键是您定义的字段名,值是对应字段的字符串数据。

4. 导出为CSV文件

解析完成后,我们可以将结构化的数据导出为CSV(Comma Separated Values)文件。CSV是一种通用的表格数据格式,易于被各种电子表格软件、数据库管理工具识别和导入。根据需求,我们可以选择不同的分隔符,例如本例中使用的管道符|。

运行此脚本后,您将在同一目录下找到一个名为 data.csv 的文件,其中包含用管道符|分隔的解析后数据。

data.csv 文件的部分内容示例(根据原始数据和字段定义):

I|299207075410| 07 |OCCLUSAL-HP                        |LIQ17%                          |LMedicis              |B000001000000000001EA |8428010080529100   |  |1072363   |20030101000000016750000000016750000000000167500200101010000000000000000000000000000000001218000000000000000000000000000000000000000000000000020021231262436018510(W/BRUSH APPLICATOR)     |TPLIQ     
 |299207085060|R01  |LUZU                               |CRE1%                           |SBausch               |C000006000000000001EA |8404080054930829 |1 |1309011   |20180105000000590530000000098421700000000902967000000000000000000000000000000000000000000000000000000000000000000000000000000                                     |TPCRE     

5. 从CSV到SQL数据库

一旦数据被成功导出为CSV格式,将其导入到SQL数据库就变得相对简单。大多数数据库系统都提供了导入CSV文件的功能。

常见导入方法:

  • MySQL的LOAD DATA INFILE语句: 这是最直接和高效的方法,尤其适用于大型CSV文件。
    LOAD DATA INFILE '/path/to/your/data.csv'
    INTO TABLE your_table_name
    FIELDS TERMINATED BY '|'  -- 指定字段分隔符
    ENCLOSED BY ''             -- 如果字段没有被引号包围,则为空
    LINES TERMINATED BY '\n'   -- 指定行结束符
    IGNORE 1 LINES;            -- 如果CSV文件有标题行,则忽略第一行

    请确保MySQL服务器对CSV文件路径有读取权限。

  • phpMyAdmin或其他数据库管理工具: 这些工具通常提供图形界面,允许您选择CSV文件并配置导入选项(如分隔符、跳过行数等)。
  • 编写PHP脚本进行数据库插入: 如果您需要更精细的控制,例如在插入前进行数据验证或转换,可以在PHP中连接数据库,然后遍历解析后的$data数组,逐行构建INSERT语句进行插入。

6. 注意事项与优化

  • 字段长度的精确性: 这是整个解析过程中最关键的一环。务必确保$fields数组中的长度与源文件实际布局完全一致。
  • 字符编码 确保源文件的字符编码(例如UTF-8, GBK, Latin-1等)与PHP脚本处理时的编码一致,以避免乱码问题。file()函数默认以系统默认编码读取,如果文件编码不同,可能需要使用iconv()或mb_convert_encoding()进行转换。
  • 内存管理: 对于非常大的.out文件,file()函数一次性将所有内容读入内存可能会导致内存耗尽。在这种情况下,可以考虑使用fgets()或SplFileObject逐行读取文件,以减少内存占用
    // 逐行读取大文件示例
    $handle = fopen('data.out', 'r');
    if ($handle) {
        while (($line = fgets($handle)) !== false) {
            $line = rtrim($line, "\r\n");
            $data[] = unpack($unpack_string, $line);
        }
        fclose($handle);
    }
  • 数据清洗与类型转换: unpack()提取的所有字段都将是字符串类型。在导入数据库之前,您可能需要对某些字段进行数据清洗(如去除多余空格trim())或类型转换(如intval(),floatval())。
  • 错误处理: 在实际应用中,应添加错误处理机制,例如检查文件是否存在、是否可读,以及fopen()、fputcsv()等操作是否成功。

总结

通过本教程,您应该已经掌握了使用PHP解析固定宽度数据文件并将其导出为CSV格式的方法。核心在于精确定义字段结构,并利用unpack()函数进行高效解析。这种方法不仅解决了无分隔符数据的处理难题,也为后续的数据分析、存储和利用奠定了基础。请记住,在实际操作中,根据您的具体数据文件结构和需求,灵活调整字段定义和导出策略至关重要。

相关专题

更多
php文件怎么打开
php文件怎么打开

打开php文件步骤:1、选择文本编辑器;2、在选择的文本编辑器中,创建一个新的文件,并将其保存为.php文件;3、在创建的PHP文件中,编写PHP代码;4、要在本地计算机上运行PHP文件,需要设置一个服务器环境;5、安装服务器环境后,需要将PHP文件放入服务器目录中;6、一旦将PHP文件放入服务器目录中,就可以通过浏览器来运行它。

2544

2023.09.01

php怎么取出数组的前几个元素
php怎么取出数组的前几个元素

取出php数组的前几个元素的方法有使用array_slice()函数、使用array_splice()函数、使用循环遍历、使用array_slice()函数和array_values()函数等。本专题为大家提供php数组相关的文章、下载、课程内容,供大家免费下载体验。

1611

2023.10.11

php反序列化失败怎么办
php反序列化失败怎么办

php反序列化失败的解决办法检查序列化数据。检查类定义、检查错误日志、更新PHP版本和应用安全措施等。本专题为大家提供php反序列化相关的文章、下载、课程内容,供大家免费下载体验。

1501

2023.10.11

php怎么连接mssql数据库
php怎么连接mssql数据库

连接方法:1、通过mssql_系列函数;2、通过sqlsrv_系列函数;3、通过odbc方式连接;4、通过PDO方式;5、通过COM方式连接。想了解php怎么连接mssql数据库的详细内容,可以访问下面的文章。

952

2023.10.23

php连接mssql数据库的方法
php连接mssql数据库的方法

php连接mssql数据库的方法有使用PHP的MSSQL扩展、使用PDO等。想了解更多php连接mssql数据库相关内容,可以阅读本专题下面的文章。

1417

2023.10.23

html怎么上传
html怎么上传

html通过使用HTML表单、JavaScript和PHP上传。更多关于html的问题详细请看本专题下面的文章。php中文网欢迎大家前来学习。

1234

2023.11.03

PHP出现乱码怎么解决
PHP出现乱码怎么解决

PHP出现乱码可以通过修改PHP文件头部的字符编码设置、检查PHP文件的编码格式、检查数据库连接设置和检查HTML页面的字符编码设置来解决。更多关于php乱码的问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1446

2023.11.09

php文件怎么在手机上打开
php文件怎么在手机上打开

php文件在手机上打开需要在手机上搭建一个能够运行php的服务器环境,并将php文件上传到服务器上。再在手机上的浏览器中输入服务器的IP地址或域名,加上php文件的路径,即可打开php文件并查看其内容。更多关于php相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1306

2023.11.13

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

2

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 1.8万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 793人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号