0

0

Oozie workflow.xml是什么 如何用它来定义Hadoop工作流

星降

星降

发布时间:2026-03-07 08:40:03

|

937人浏览过

|

来源于php中文网

原创

workflow.xml 是 oozie 定义 hadoop 工作流的 xml 蓝图,本质为 dag;须以 为根,含 和 ,节点通过 / 跳转,依赖参数由 job.properties 提供,且所有 hdfs 路径需完整 uri。

oozie workflow.xml是什么 如何用它来定义hadoop工作流

workflow.xml 是 Oozie 用来声明式定义 Hadoop 工作流的 XML 文件,本质是一个 DAG(有向无环图)描述:每个节点代表一个操作(如 MapReduceSparkShellForkJoin),边代表执行顺序与依赖关系。

它不是脚本,不写逻辑;而是“蓝图”——Oozie Server 读取后解析、调度、监控并容错执行。


workflow.xml 的基本结构长什么样

必须包含 <workflow-app></workflow-app> 根元素,定义 namexmlns,内部以 <start></start> 开始,以 <end></end> 结束,中间是节点定义和跳转(<ok></ok>/<error></error>)。

<workflow-app xmlns="uri:oozie:workflow:0.5" name="my-wf">
  <start to="mr-job"/>
<p><action name="mr-job">
<map-reduce>
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<configuration>
<property>
<name>mapred.mapper.class</name>
<value>org.example.TokenizerMapper</value>
</property>
</configuration>
<file>hdfs://path/to/job.jar#job.jar</file>
</map-reduce>
<ok to="end"/>
<error to="fail"/>
</action></p><p><kill name="fail">
<message>Workflow failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill></p><p><end name="end"/>
</workflow-app>
  • ${jobTracker}${nameNode} 是参数占位符,需在 job.properties 中赋值
  • 所有 HDFS 路径必须用完整 URI(如 hdfs://nn:8020/user/oozie/wf.xml),不能省略协议
  • <file></file> 中的 #job.jar 表示将该 JAR 下载到容器本地 classpath,这是 MapReduce action 正常运行的关键

怎么提交 workflow.xml 到 Oozie 执行

不能直接双击或用 java -jar 运行 —— 它必须通过 Oozie Client 提交到 Oozie Server(即 REST 接口)。

AI Code Reviewer
AI Code Reviewer

AI自动审核代码

下载
  • 先确保 workflow.xml 和所有依赖(JAR、脚本、配置文件)已上传到 HDFS 指定路径(如 /user/oozie/workflows/myapp/
  • 准备 job.properties,至少含:
    oozie.wf.application.path=hdfs://nn:8020/user/oozie/workflows/myapp/
    jobTracker=rm-host:8050
    nameNode=hdfs://nn:8020
  • 用命令行提交:
    oozie job -config job.properties -run
  • Oozie 返回一串 job-0000001-230401123456789-oozie-oozi-W 类似 ID,可用 oozie job -info <id></id> 查状态

注意:oozie.wf.application.path 指向的是目录,不是 workflow.xml 文件本身;Oozie 默认在该目录下找名为 workflow.xml 的文件。


常见失败原因和绕不过去的坑

90% 的 workflow 启动失败不是语法错,而是环境或路径问题。

  • EL expression error: Cannot resolve variable [jobTracker]job.properties 缺少该变量,或拼写不一致(比如用了 jt 却在 XML 里写 ${jobTracker}
  • JA009: File does not exist: hdfs://.../workflow.xml → 路径没传对,或用户没权限读该 HDFS 目录(Oozie Server 以提交用户身份访问 HDFS)
  • JA018: Could not find main class<file></file><archive></archive> 没正确引用 JAR,或未用 # 挂载别名导致类加载失败
  • 使用 Spark action 时,spark.master 必须设为 yarn,且不能写 local[*];Oozie 不支持本地模式
  • 中文注释或 UTF-8 BOM 头会导致 XML 解析失败,保存 workflow.xml 时选 “UTF-8 without BOM”

Oozie 对 XML 格式极其严格:标签闭合、命名空间、缩进无关,但大小写敏感、属性名不可错、空格不能出现在 <start to="xxx"></start> 的引号外。调试时优先看 Oozie Web Console 的日志链接,而不是终端返回信息。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pdf怎么转换成xml格式
pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法:1. 使用在线转换器;2. 使用桌面软件(如 adobe acrobat、itext);3. 使用命令行工具(如 pdftoxml)。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1943

2024.04.01

xml怎么变成word
xml怎么变成word

步骤:1. 导入 xml 文件;2. 选择 xml 结构;3. 映射 xml 元素到 word 元素;4. 生成 word 文档。提示:确保 xml 文件结构良好,并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容,可以阅读本专题下面的文章。

2117

2024.08.01

xml是什么格式的文件
xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容,可阅读本专题下面的相关文章。

1159

2024.11.28

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

451

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

373

2023.10.25

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1846

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

614

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2351

2025.12.29

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

1

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号