0

0

Python 数据处理代码的可测试性设计

舞姬之光

舞姬之光

发布时间:2026-02-19 18:11:02

|

772人浏览过

|

来源于php中文网

原创

pandas.read_csv 不该直接写在测试用例里,因其会引入外部文件路径、编码、网络及csv格式变化等不稳定依赖;应改用内存数据构造、stringio模拟或显式参数化输入。

python 数据处理代码的可测试性设计

为什么 pandas.read_csv 不该直接写在测试用例里

因为这会让测试依赖外部文件路径、编码、网络(如果读的是 URL)、甚至 CSV 格式微小变化,导致测试不稳定或无法本地运行。

实操建议:

立即学习Python免费学习笔记(深入)”;

LANUX蓝脑商务网站系统
LANUX蓝脑商务网站系统

LANUX V1.0 蓝脑商务网站系统 适用于网店、公司宣传自己的品牌和产品。 系统在代码、页面方面设计简约,浏览和后台管理操作效率高。 此版本带可见即可得的html编辑器, 方便直观添加和编辑要发布的内容。 安装: 1.解压后,更换logo、分类名称、幻灯片的图片及名称和链接、联系我们等等页面。 2.将dbconfig.php里面的数据库配置更改为你的mysql数据库配置 3.将整个文件夹上传至

下载
  • 把数据构造逻辑抽成函数,比如 make_test_dataframe(),用 pd.DataFrame 直接生成干净的内存数据
  • 若必须测真实读取逻辑,把 CSV 内容固化为字符串,用 io.StringIO 模拟文件句柄,避免磁盘 I/O 和路径问题
  • 别在 setUp 或测试函数里调用 read_csv 读取相对路径——CI 环境工作目录可能和本地不一致

如何让自定义清洗函数支持单元测试

核心是剥离副作用:把数据输入、参数、输出三者完全显式化,不隐式依赖全局变量、配置文件或数据库连接。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 清洗函数只接收 df: pd.DataFrame 和必要参数(如 date_col: str),返回新 df,不修改原地
  • 避免在函数里调用 logging.infoprint——它们会干扰断言,也增加 mock 成本
  • 如果要用配置,通过参数传入字典或 dataclass 实例,而不是读 config.yaml
  • 示例:def clean_sales(df, cutoff_date: str = "2023-01-01") -> pd.DataFrame:,这样可直接用不同 cutoff_date 覆盖边界场景

pytest.mark.parametrize 怎么用才不翻车

它适合验证同一函数在多组输入下的行为一致性,但容易因数据结构嵌套过深或异常类型不匹配导致断言失败难定位。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 每组参数控制在 3–4 个字段内,用命名元组或字典封装,避免位置错乱;例如传 {"input": [1,2,3], "expected": 6} 而不是 ([1,2,3], 6)
  • 如果要测异常,用 pytest.raises(ValueError) 显式包裹调用,别靠 assert "error" in str(e)
  • 避免在 parametrize 中传入未序列化的对象(如 datetime.now()),会导致每次运行值不同,测试不可重现
  • 参数名别用 data 这种泛称,改用 invalid_phone_strempty_df_input 等能一眼看懂意图的名称

mock 外部 API 调用时最常漏掉的一件事

只 mock 返回值,却没 mock 异常路径——结果线上报错,测试却全绿。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 对每个外部依赖(比如 requests.get),至少写两组测试:正常响应 + 一种典型异常(requests.TimeoutHTTPError
  • side_effect 而非 return_value 来模拟异常:mock_get.side_effect = requests.Timeout("test")
  • 检查被测函数是否真的处理了异常——比如有没有 try/except,有没有 fallback 逻辑,别只验证“没崩”,要验证“返回了预期 fallback 值”
  • 如果函数内部用了 session.get 而不是 requests.get,mock 的目标得是 your_module.session,不是 requests
测试真正起作用的地方,往往不在 happy path 上,而在你懒得写的那条 except 分支里。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

75

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

4

2026.01.31

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

12

2026.02.03

session失效的原因
session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍:1、会话超时:服务器为Session设置了一个默认的超时时间,当用户在一段时间内没有与服务器交互时,Session将自动失效;2、会话数量限制:服务器为每个用户的Session数量设置了一个限制,当用户创建的Session数量超过这个限制时,最新的会覆盖最早的等等。

327

2023.10.17

session失效解决方法
session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法:1、延长session的生存时间;2、使用持久化存储;3、使用cookie;4、异步更新session;5、使用会话管理中间件。

773

2023.10.18

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

371

2023.10.18

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

660

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号