0

0

估计编码任务:可能会出现什么问题?

王林

王林

发布时间:2024-08-11 12:30:03

|

1071人浏览过

|

来源于dev.to

转载

估计编码任务:可能会出现什么问题?

以下是“向现有 dataframe 添加哈希值”的任务如何从花费几天时间到消耗几乎整个冲刺的过程。

2022 年第二季度,我开始开发一个数据管道,该管道从 rest 服务获取市场数据并将其存储在 bigquery 表中。这是管道的高级解释。有趣的部分是如何查询数据,将其转换为 dataframe,然后使用 airflow 的gcstobigqueryoperator上传 bigquery 表。

起初,写起来似乎很简单,但 airflow 的“幂等”原理给它增加了一些挑战。从该 rest 服务获取的内容由另一个表决定,即使 job 是幂等的,它用作参考的表也可能在两次运行之间发生变化。经过额外的时间,与数据工程师的沟通管道已于 2022 年第三季度末准备就绪。

快进到 2024 年第一季度。此时,我们有更多的用户访问数据,并且我们意识到我们的查询模式没有正确使用分区。或者更确切地说,我们想要基于字符串列访问数据,但无法在 bigquery 中对字符串列进行分区。这导致扫描大量数据并经常达到每日配额。

这促使我们考虑如何根据字符串列对数据进行分区。我们的数据工程师建议使用 farmhash 并附加模运算将该字符串列转换为整数。在概念验证中,这减少了近 90% 的扫描,查询性能提高了 3-5 倍。我们决定继续将此作为最终解决方案。我们所需要的只是:

  1. 创建带有farmhash指纹的表
  2. 更改管道来计算指纹
  3. 上传数据。

为了在python中计算farmhash指纹,有一个pyfarmhash模块。我安装了该模块并使用下面的代码来计算哈希值,并且在本地一切都按预期工作。

def get_hash(val: str) -> int:
    return additonal_logic(pyfarmhash.fingerprint64(...))

df[‘hash’] = df[‘Col’].apply(get_hash)

随着所有测试的通过,现在是时候将代码推送到 airflow 并运行它了。我没想到在这个阶段会出现任何问题。事实上,我很高兴一切都按计划并在预计的时间内进行。

带着愉快的心情和充满信心,我推动了我的改变,开始了工作,然后等待了10-15分钟让它完成。与此同时,我切换到了另一项任务。很快,我收到了一封来自 airflow 的意外失败电子邮件。我查看了日志,惊讶地发现安装 pyfarmhash 模块时失败了!

为了帮助您理解问题,我需要解释一下作业的结构。该工作有以下步骤:

FloatSearch
FloatSearch

FloatSearch是一个专业的AI搜索引擎,提供多样化的见解

下载
  1. 下载 parquet 格式的数据
  2. 上传到gcs存储桶
  3. 删除现有数据;如果有的话。 (避免重复数据)
  4. 将数据上传到bq表。

在此过程中,下载数据的task-1是一个单独的python模块。为了运行它,我使用了 airflow 中的pythonvirtualenvoperator。该操作符允许您根据需要指定包,然后将它们安装在新创建的虚拟环境中。安装包后,它的所有依赖项也会安装,您就可以开始使用了。

我添加了pyfarmhash作为下载数据的模块的依赖项,其他一切保持不变。但它失败了!为什么?

pyfarmhash是一个用c/c++实现的哈希库。安装后,它需要 gcc 来编译软件包,而 airflow 主机上不存在该软件包。在 airflow 主机上不安装 gcc 是有道理的,但不幸的是,这对我来说是一个障碍。

我寻找了 pyfarmhash 包的纯 python 实现,但没有。然后,我寻找车轮包装,但同样没有。我考虑过构建轮子包并推动它们,但这将导致在内部提供轮子包的长期责任。我想避免额外的、类似于解决方法的步骤。我探索了所有选项,并与维护 airflow 的团队讨论了它们。他们建议创建一个 docker 镜像并在 kubernetespodoperator 中运行它。这是一个不错的选择,因为我可以控制环境并包含所需的任何内容,而无需依赖外部环境。此外,该解决方案没有解决方法。唯一的短期缺点是需要更多时间来实施。

在开始使用基于 docker 的解决方案之前,我已经在这项任务上花费了大约 16-20 个小时。对于基于 docker 的解决方案,我还需要:

  1. 更改 python 包以具有开始下载和清除逻辑的入口点。
  2. 创建一个 docker 包并测试它(这是我的第二个 docker 镜像)。

由于我不再在 airflow 中使用 pythonvirtualenvoperator,我决定完全删除它并改进工作流程。我必须更改 python 包才能有入口点来开始下载和清除逻辑

我又花了 30-36 个小时才准备好了 docker 镜像的最终解决方案,这需要 6-7 个工作日,加上最初的 2 天,它变成了一项长期的冲刺任务。

我回想起来,想知道,我不得不放弃工作解决方案,更改模块结构,创建 docker 映像,更改 10 多个 airflow 作业以使用 docker 映像执行任务,处理这个现实并克服最初的挫败感。所有这一切只是因为,“单个 python 模块需要“gcc”来编译!”

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1229

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1205

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

194

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

131

2025.08.07

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号