0

0

Flink 1.16 JobManager 重启导致消息丢失问题排查与解决

DDD

DDD

发布时间:2025-10-08 12:31:00

|

700人浏览过

|

来源于php中文网

原创

flink 1.16 jobmanager 重启导致消息丢失问题排查与解决

本文旨在帮助你分析可能在使用 Flink 1.16 时,配置了重启策略后,JobManager 在达到最大重试次数后重启,导致部分消息丢失的问题的原因,并提供相应的解决方案,确保 Flink 应用在发生故障时能够可靠地处理数据,保障数据处理的完整性。

可能的原因及解决方案

在排查 Flink JobManager 重启导致消息丢失的问题时,需要从多个方面进行分析,以下是一些常见的原因及相应的解决方案:

1. 陷入 fail -> restart -> fail again 循环

问题描述: 如果你的 Flink 应用遇到无法处理的“毒丸”(poison pill)数据,会导致任务不断失败、重启,但始终无法跳过该数据。

解决方案:

  • 数据清洗 在数据进入 Flink 之前,进行数据清洗,过滤掉不符合规范或可能导致异常的数据。
  • 异常处理: 在 Flink 应用中添加异常处理逻辑,捕获特定类型的异常,并采取相应的措施,例如跳过错误数据或将其发送到死信队列。
  • flink.checkpoint.ignore-unrecoverable-state配置: 在flink-conf.yaml配置文件中将此参数设置为true, 可以跳过无法恢复的状态。

示例代码:

DataStream stream = env.addSource(new YourSourceFunction())
    .map(data -> {
        try {
            // 数据处理逻辑
            return processData(data);
        } catch (Exception e) {
            // 异常处理逻辑
            LOG.error("Error processing data: {}", data, e);
            // 可以选择跳过当前数据,或者将其发送到死信队列
            return null; // 如果返回 null,需要确保后续算子能够处理 null 值
        }
    })
    .filter(Objects::nonNull); // 过滤掉 null 值

注意事项: 在选择跳过错误数据时,需要仔细评估其对业务的影响,确保不会造成数据不一致或其他问题。

2. Source 不支持 Checkpointing

问题描述: 如果你使用的 Source Function 没有实现 Checkpointing 接口,或者没有正确地维护状态,那么在 JobManager 重启后,可能会丢失部分数据。

解决方案:

  • 使用支持 Checkpointing 的 Source: 尽可能使用 Flink 官方提供的或者经过验证的支持 Checkpointing 的 Source Function。
  • 自定义 Source Function: 如果需要使用自定义的 Source Function,请确保其实现了 CheckpointedFunction 或 SourceFunction.SourceContext 接口,并正确地维护状态。

示例代码(自定义 Source Function):

public class CustomSourceFunction implements SourceFunction, CheckpointedFunction {

    private ListState offsetState;
    private long offset = 0;
    private volatile boolean isRunning = true;

    @Override
    public void run(SourceContext ctx) throws Exception {
        while (isRunning) {
            // 从数据源读取数据
            YourDataType data = fetchData(offset);

            // 将数据发送到下游
            ctx.collect(data);

            // 更新 offset
            offset++;

            // 暂停一段时间
            Thread.sleep(100);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }

    @Override
    public void snapshotState(FunctionSnapshotContext context) throws Exception {
        offsetState.clear();
        offsetState.add(offset);
    }

    @Override
    public void initializeState(FunctionInitializationContext context) throws Exception {
        ListStateDescriptor descriptor =
                new ListStateDescriptor<>(
                        "offset-state",
                        TypeInformation.of(Long.class));

        offsetState = context.getOperatorStateStore().getListState(descriptor);

        if (context.isRestored()) {
            for (Long offset : offsetState.get()) {
                this.offset = offset;
            }
        }
    }

    private YourDataType fetchData(long offset) {
        // 从数据源读取数据的逻辑
        // ...
        return null;
    }
}

注意事项: 在实现 CheckpointedFunction 接口时,需要注意状态的序列化和反序列化,以及状态的备份和恢复。

3. Source 不支持 Rewind

问题描述: Flink 的容错机制依赖于 Source Function 能够回溯到上一个 Checkpoint 的位置,重新消费数据。如果 Source Function 不支持回溯(例如,从 Socket 或 HTTP 端点读取数据),那么在 JobManager 重启后,可能会丢失部分数据。

ZOER
ZOER

AI全栈应用开发平台

下载

解决方案:

  • 使用支持 Rewind 的 Source: 尽可能使用支持回溯的 Source Function,例如 Kafka Connector。
  • 自定义 Source Function: 如果需要使用自定义的 Source Function,可以考虑使用类似于 Kafka 的消息队列作为中间层,实现数据的持久化和回溯。

4. 使用 JobManagerCheckpointStorage

问题描述: 如果你使用了 JobManagerCheckpointStorage,那么 Checkpoint 数据会存储在 JobManager 的内存中。当 JobManager 重启后,Checkpoint 数据会丢失,导致 Flink 应用无法恢复到之前的状态。

解决方案:

  • 使用持久化的 Checkpoint Storage: 建议使用持久化的 Checkpoint Storage,例如 FileSystemCheckpointStorage 或 RocksDBCheckpointStorage,将 Checkpoint 数据存储在 HDFS 或 RocksDB 中,确保在 JobManager 重启后数据不会丢失。

配置示例:

state.checkpoints.dir: hdfs:///flink/checkpoints
state.savepoints.dir: hdfs:///flink/savepoints
state.backend: rocksdb

注意事项: 使用持久化的 Checkpoint Storage 会增加 Flink 应用的 I/O 开销,需要根据实际情况进行权衡。

5. JobManager 频繁重启

问题描述: JobManager 的频繁重启本身就是一个需要解决的问题。JobManager 的职责是管理 Flink 集群的资源和任务,如果 JobManager 频繁重启,会导致 Flink 应用不稳定,甚至无法正常运行。

解决方案:

  • 排查 JobManager 的日志: 查看 JobManager 的日志,分析导致其重启的原因。
  • 调整 JVM 参数: 适当调整 JobManager 的 JVM 参数,例如堆大小和 GC 策略,避免内存溢出或频繁 GC。
  • 升级 Flink 版本: 升级到最新的 Flink 版本,可以修复一些已知的 Bug 和性能问题。
  • 配置高可用性: 配置 Flink 集群的高可用性,确保在 JobManager 发生故障时,能够自动切换到备用的 JobManager,避免单点故障。 具体可以参考官方文档配置高可用性

总结:

解决 Flink JobManager 重启导致消息丢失的问题需要综合考虑多个方面,包括数据清洗、异常处理、Source Function 的选择和实现、Checkpoint Storage 的配置以及 JobManager 的稳定性。通过仔细分析问题的原因,并采取相应的解决方案,可以确保 Flink 应用在发生故障时能够可靠地处理数据,保障数据处理的完整性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
kafka消费者组有什么作用
kafka消费者组有什么作用

kafka消费者组的作用:1、负载均衡;2、容错性;3、广播模式;4、灵活性;5、自动故障转移和领导者选举;6、动态扩展性;7、顺序保证;8、数据压缩;9、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

168

2024.01.12

kafka消费组的作用是什么
kafka消费组的作用是什么

kafka消费组的作用:1、负载均衡;2、容错性;3、灵活性;4、高可用性;5、扩展性;6、顺序保证;7、数据压缩;8、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

151

2024.02.23

rabbitmq和kafka有什么区别
rabbitmq和kafka有什么区别

rabbitmq和kafka的区别:1、语言与平台;2、消息传递模型;3、可靠性;4、性能与吞吐量;5、集群与负载均衡;6、消费模型;7、用途与场景;8、社区与生态系统;9、监控与管理;10、其他特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

202

2024.02.23

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1126

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

192

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1611

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

20

2026.01.19

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

396

2023.07.18

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号