0

0

如何用Pentaho Data Integration (Kettle) 读取XML

幻夢星雲

幻夢星雲

发布时间:2026-01-04 11:19:02

|

481人浏览过

|

来源于php中文网

原创

使用“Get data from XML”步骤读取XML文件最可靠,需规范XML格式、设对重复节点路径(如/orders/order),嵌套项(如items/item)需二级解析,注意编码、XPath及命名空间配置。

如何用pentaho data integration (kettle) 读取xml

用 Pentaho Data Integration(Kettle)读取 XML 文件,核心是使用 “Get data from XML” 步骤,它专为解析结构化 XML 设计,比通用的 “Text file input” 更可靠、更灵活。

准备 XML 文件和了解结构

确保 XML 文件格式规范(有根节点、标签闭合、无非法字符),并提前查看其层级结构。例如:

<?xml version="1.0" encoding="UTF-8"?>
<orders>
  <order id="1001">
    <customer>Alice</customer>
    <amount>299.99</amount>
    <items>
      <item sku="A001"><name>Laptop</name></item>
      <item sku="B002"><name>Mouse</name></item>
    </items>
  </order>
</orders>

注意:Kettle 默认按“重复节点”提取数据。上例中,<order> 是重复节点,应设为循环路径;<item> 是嵌套重复节点,需额外处理(见下文)。

配置 “Get data from XML” 步骤

在转换中添加该步骤后,关键设置包括:

云从科技AI开放平台
云从科技AI开放平台

云从AI开放平台

下载
  • XML source:选择“File”并指定路径(支持变量如 ${FILE_PATH}
  • Repeat node:填写相对 XPath,如 /orders/order —— 这决定每行输出对应一个 <order>
  • Fields 标签页中定义字段:
    • Field name:如 customer
    • Element XPath:相对于 repeat node 的路径,如 customer(直接子元素)或 ../@id(取父节点属性)
    • Type:选 String / Number / Date 等,匹配实际值类型
    • Format/Length/Precision:按需填写,如金额设为 Number + 2 位小数

处理多层嵌套(如 items/item)

“Get data from XML” 本身不支持跨层级展开多个重复组。若需把每个 <item> 拆成独立行,推荐组合方案:

  • 先用 “Get data from XML” 提取 <order> 级数据(含 <items> 内容作为 XML 片段字段)
  • 再接一个 “Get data from XML” 步骤,将上一步输出的 items_xml 字段作为 XML source(选 “XML from field”),repeat node 设为 items/item
  • 用 “Join Rows (Cartesian product)” 或 “Stream lookup” 关联主订单信息(需提前加唯一键,如 order_id)

常见问题与提示

避免踩坑:

  • 中文乱码?在步骤的 “Content” 标签页中,显式设置 EncodingUTF-8(即使文件声明了也建议指定)
  • 字段为空?检查 XPath 是否正确,是否用了 text()(如 customer/text()),或启用 “Ignore empty elements”
  • 性能慢?大文件建议开启 “Use memory mapping”(在 Content 页),并限制预览行数
  • 需要命名空间?在 “Content” 页勾选 “Support namespaces”,并在 XPath 中用前缀(如 ns:customer),同时在 “Namespaces” 表格里定义前缀与 URI 映射

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1031

2023.08.02

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

887

2023.07.31

python中的format是什么意思
python中的format是什么意思

python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

462

2024.06.27

pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1948

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1171

2024.11.28

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

954

2023.09.19

点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.24

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
HTML5/CSS3/JavaScript/ES6入门课程
HTML5/CSS3/JavaScript/ES6入门课程

共102课时 | 7.3万人学习

前端基础到实战(HTML5+CSS3+ES6+NPM)
前端基础到实战(HTML5+CSS3+ES6+NPM)

共162课时 | 21.7万人学习

第二十二期_前端开发
第二十二期_前端开发

共119课时 | 13.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号