0

0

主流实时流处理计算框架Flink初体验

絕刀狂花

絕刀狂花

发布时间:2025-07-15 08:08:18

|

953人浏览过

|

来源于php中文网

原创

主流实时流处理计算框架flink初体验

概述Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink通过数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统能够处理批处理和流处理程序。此外,Flink的运行时也支持迭代算法的执行。百度百科

Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。

主流实时流处理计算框架Flink初体验

特点低延时实时流处理代码编写简单 Flink 是最近几代通用大数据框架之一,相较于一系列老前辈而言应用广泛、使用简便。支持大型、复杂的状态处理 允许有数百 GB 以上的状态存储。支持大规模分布式部署 自身有 Standalone 集群模式,也支持部署到 Yarn、K8S 上。迭代速度快结果准确性和良好的容错性使用的一般场景机器资源非常的多:能够提供至少 24 个 CPU 核心和百 GB 以上的内存,Flink 所在的机器硬盘必须为 SSD吞吐量大或未来扩展要求很大:每秒一万条只能勉强算大,十万条可以算大需求复杂:有大量复杂的清洗、去重、转换等操作 对低延时有极高要求:10秒以内的延迟才能算作低延迟,1 秒以内的延迟要求就需要非常仔细地处理事件驱动事件驱动类型的应用,它是一类有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 kafka 为代表的消息队列几乎都是事件驱动型应用。

主流实时流处理计算框架Flink初体验

流处理和批处理流处理和批处理是两种不同处理数据的方式,接下来我们详细了解一下两者的不同之处。

批处理批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,通常用于离线统计。换句话说,批处理的触发点是数据无关的。可以是定时触发,也可以是一定数量触发,或者是一张表、一套文件导入后触发。

流处理流处理的特点是无界、实时,不需要针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,通常用于实时统计。换句话说,流处理的触发点是数据相关的。是由事件驱动的体系结构,其中任何一个部分都是收到一条数据后立刻分析与触发有关的信息并执行处理,例如 offset、例如 time、例如特定字段值满足要求。

Warp
Warp

新一代的终端工具(内置AI命令搜索)

下载

两者区别对比数据时效性数据特征应用场景运行方式处理效能Flink中的数据处理方式在Flink的世界里,一切数据都是由流组成的,任何类型的数据都是作为事件流产生的。信用卡交易、传感器测量、机器日志或网站或移动应用程序上的用户交互,所有这些数据都以流的形式生成,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。无界流

无界流有一个开始但没有定义的结束。它们不会终止并在生成数据时提供数据。必须连续处理无界流,即事件必须在被摄取后立即处理。不可能等待所有输入数据到达,因为输入是无界的并且不会在任何时间点完成。处理无界数据通常需要以特定顺序(例如事件发生的顺序)摄取事件,以便能够推断结果的完整性。

无界数据流就是指有始无终的数据,数据一旦开始生成就会持续不断地产生新的数据,即数据没有时间边界。无界数据流需要持续不断地处理。

有界流有界流具有定义的开始和结束。可以通过在执行任何计算之前摄取所有数据来处理有界流。处理有界流不需要有序摄取,因为始终可以对有界数据集进行排序。有界流的处理也称为批处理。

有界数据流就是指输入的数据有始有终。例如数据可能是一分钟或者一天的交易数据等等

主流实时流处理计算框架Flink初体验

Flink编程模型(API)主流实时流处理计算框架Flink初体验 用于开发的是第三层,即DataStrem/DataSetAPI。用户可以使用DataStream API处理无界数据流,使用DataSet API处理有界数据流。同时这两个API都提供了各种各样的接口来处理数据。例如常见的map、filter、flatMap等等,而且支持python,scala,java等编程语言。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

775

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

684

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

768

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

739

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

751

2023.08.11

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

58

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.8万人学习

Excel 教程
Excel 教程

共162课时 | 13.4万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号