0

0

Flink 1.16 JobManager 重启导致消息丢失问题排查与解决

DDD

DDD

发布时间:2025-10-08 12:31:00

|

700人浏览过

|

来源于php中文网

原创

flink 1.16 jobmanager 重启导致消息丢失问题排查与解决

本文旨在帮助你分析可能在使用 Flink 1.16 时,配置了重启策略后,JobManager 在达到最大重试次数后重启,导致部分消息丢失的问题的原因,并提供相应的解决方案,确保 Flink 应用在发生故障时能够可靠地处理数据,保障数据处理的完整性。

可能的原因及解决方案

在排查 Flink JobManager 重启导致消息丢失的问题时,需要从多个方面进行分析,以下是一些常见的原因及相应的解决方案:

1. 陷入 fail -> restart -> fail again 循环

问题描述: 如果你的 Flink 应用遇到无法处理的“毒丸”(poison pill)数据,会导致任务不断失败、重启,但始终无法跳过该数据。

解决方案:

  • 数据清洗 在数据进入 Flink 之前,进行数据清洗,过滤掉不符合规范或可能导致异常的数据。
  • 异常处理: 在 Flink 应用中添加异常处理逻辑,捕获特定类型的异常,并采取相应的措施,例如跳过错误数据或将其发送到死信队列。
  • flink.checkpoint.ignore-unrecoverable-state配置: 在flink-conf.yaml配置文件中将此参数设置为true, 可以跳过无法恢复的状态。

示例代码:

DataStream<YourDataType> stream = env.addSource(new YourSourceFunction())
    .map(data -> {
        try {
            // 数据处理逻辑
            return processData(data);
        } catch (Exception e) {
            // 异常处理逻辑
            LOG.error("Error processing data: {}", data, e);
            // 可以选择跳过当前数据,或者将其发送到死信队列
            return null; // 如果返回 null,需要确保后续算子能够处理 null 值
        }
    })
    .filter(Objects::nonNull); // 过滤掉 null 值

注意事项: 在选择跳过错误数据时,需要仔细评估其对业务的影响,确保不会造成数据不一致或其他问题。

2. Source 不支持 Checkpointing

问题描述: 如果你使用的 Source Function 没有实现 Checkpointing 接口,或者没有正确地维护状态,那么在 JobManager 重启后,可能会丢失部分数据。

解决方案:

  • 使用支持 Checkpointing 的 Source: 尽可能使用 Flink 官方提供的或者经过验证的支持 Checkpointing 的 Source Function。
  • 自定义 Source Function: 如果需要使用自定义的 Source Function,请确保其实现了 CheckpointedFunction 或 SourceFunction.SourceContext 接口,并正确地维护状态。

示例代码(自定义 Source Function):

public class CustomSourceFunction implements SourceFunction<YourDataType>, CheckpointedFunction {

    private ListState<Long> offsetState;
    private long offset = 0;
    private volatile boolean isRunning = true;

    @Override
    public void run(SourceContext<YourDataType> ctx) throws Exception {
        while (isRunning) {
            // 从数据源读取数据
            YourDataType data = fetchData(offset);

            // 将数据发送到下游
            ctx.collect(data);

            // 更新 offset
            offset++;

            // 暂停一段时间
            Thread.sleep(100);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }

    @Override
    public void snapshotState(FunctionSnapshotContext context) throws Exception {
        offsetState.clear();
        offsetState.add(offset);
    }

    @Override
    public void initializeState(FunctionInitializationContext context) throws Exception {
        ListStateDescriptor<Long> descriptor =
                new ListStateDescriptor<>(
                        "offset-state",
                        TypeInformation.of(Long.class));

        offsetState = context.getOperatorStateStore().getListState(descriptor);

        if (context.isRestored()) {
            for (Long offset : offsetState.get()) {
                this.offset = offset;
            }
        }
    }

    private YourDataType fetchData(long offset) {
        // 从数据源读取数据的逻辑
        // ...
        return null;
    }
}

注意事项: 在实现 CheckpointedFunction 接口时,需要注意状态的序列化和反序列化,以及状态的备份和恢复。

3. Source 不支持 Rewind

问题描述: Flink 的容错机制依赖于 Source Function 能够回溯到上一个 Checkpoint 的位置,重新消费数据。如果 Source Function 不支持回溯(例如,从 Socket 或 HTTP 端点读取数据),那么在 JobManager 重启后,可能会丢失部分数据。

Summarizer
Summarizer

基于 AI 的文本段落摘要生成器

下载

解决方案:

  • 使用支持 Rewind 的 Source: 尽可能使用支持回溯的 Source Function,例如 Kafka Connector。
  • 自定义 Source Function: 如果需要使用自定义的 Source Function,可以考虑使用类似于 Kafka 的消息队列作为中间层,实现数据的持久化和回溯。

4. 使用 JobManagerCheckpointStorage

问题描述: 如果你使用了 JobManagerCheckpointStorage,那么 Checkpoint 数据会存储在 JobManager 的内存中。当 JobManager 重启后,Checkpoint 数据会丢失,导致 Flink 应用无法恢复到之前的状态。

解决方案:

  • 使用持久化的 Checkpoint Storage: 建议使用持久化的 Checkpoint Storage,例如 FileSystemCheckpointStorage 或 RocksDBCheckpointStorage,将 Checkpoint 数据存储在 HDFS 或 RocksDB 中,确保在 JobManager 重启后数据不会丢失。

配置示例:

state.checkpoints.dir: hdfs:///flink/checkpoints
state.savepoints.dir: hdfs:///flink/savepoints
state.backend: rocksdb

注意事项: 使用持久化的 Checkpoint Storage 会增加 Flink 应用的 I/O 开销,需要根据实际情况进行权衡。

5. JobManager 频繁重启

问题描述: JobManager 的频繁重启本身就是一个需要解决的问题。JobManager 的职责是管理 Flink 集群的资源和任务,如果 JobManager 频繁重启,会导致 Flink 应用不稳定,甚至无法正常运行。

解决方案:

  • 排查 JobManager 的日志: 查看 JobManager 的日志,分析导致其重启的原因。
  • 调整 JVM 参数: 适当调整 JobManager 的 JVM 参数,例如堆大小和 GC 策略,避免内存溢出或频繁 GC。
  • 升级 Flink 版本: 升级到最新的 Flink 版本,可以修复一些已知的 Bug 和性能问题。
  • 配置高可用性: 配置 Flink 集群的高可用性,确保在 JobManager 发生故障时,能够自动切换到备用的 JobManager,避免单点故障。 具体可以参考官方文档配置高可用性

总结:

解决 Flink JobManager 重启导致消息丢失的问题需要综合考虑多个方面,包括数据清洗、异常处理、Source Function 的选择和实现、Checkpoint Storage 的配置以及 JobManager 的稳定性。通过仔细分析问题的原因,并采取相应的解决方案,可以确保 Flink 应用在发生故障时能够可靠地处理数据,保障数据处理的完整性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
kafka消费者组有什么作用
kafka消费者组有什么作用

kafka消费者组的作用:1、负载均衡;2、容错性;3、广播模式;4、灵活性;5、自动故障转移和领导者选举;6、动态扩展性;7、顺序保证;8、数据压缩;9、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

175

2024.01.12

kafka消费组的作用是什么
kafka消费组的作用是什么

kafka消费组的作用:1、负载均衡;2、容错性;3、灵活性;4、高可用性;5、扩展性;6、顺序保证;7、数据压缩;8、事务性支持。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

159

2024.02.23

rabbitmq和kafka有什么区别
rabbitmq和kafka有什么区别

rabbitmq和kafka的区别:1、语言与平台;2、消息传递模型;3、可靠性;4、性能与吞吐量;5、集群与负载均衡;6、消费模型;7、用途与场景;8、社区与生态系统;9、监控与管理;10、其他特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

207

2024.02.23

Java 流式处理与 Apache Kafka 实战
Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用,系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控,结合实际业务场景,帮助开发者构建 高吞吐量、低延迟的实时数据流管道,实现高效的数据流转与处理。

180

2026.02.04

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1974

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

680

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2413

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

49

2026.01.19

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 1.0万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号