Python A/B 测试的数据分析

冰川箭仙

发布时间：2026-02-15 16:58:03

739人浏览过

来源于php中文网

原创

用scipy.stats.proportions_ztest做两样本比例检验，设correction=false关闭连续性修正，输入[success_a, success_b]和[n_a, n_b]，双侧p值需根据zstat符号转单侧；statsmodels无ab_test函数，可用confint_proportions_2indep计算绝对提升的95%置信区间。

python a/b 测试的数据分析

怎么用 `scipy.stats` 做两样本比例检验（比如点击率）

直接用 proportions_ztest，别手写 z 分数——它默认做的是双侧检验，且自动处理小样本校正（加 0.5 连续性修正），但多数 A/B 测试里你其实不需要这个修正，反而会降低统计功效。

真实场景中，只要每组样本量 > 30 且成功数/失败数都 ≥ 5，就关掉连续性修正：correction=False
注意 count 和 nobs 的顺序：必须是 [success_A, success_B] 和 [n_A, n_B]，反了结果完全不可信
返回的 p 值是双侧的；如果你只关心“B 是否显著高于 A”，得自己转成单侧：p_value / 2，但前提是 zstat > 0

`statsmodels` 的 `ab_test` 没有内置函数，别搜这个关键词

很多人在文档里翻半天找 ab_test，其实 statsmodels 根本没这玩意儿。它提供的是底层工具链，比如 proportion 模块里的 ztest 或 confint_proportions_2indep，用来算置信区间更稳。

用 confint_proportions_2indep 算绝对提升的 95% CI：比只看 p 值更能判断业务意义
如果转化率很低（scipy.stats.fisher_exact（2×2 列联表），虽然慢点，但准确
statsmodels 默认用独立样本假设；如果实验是配对设计（比如用户级分流+前后对比），得换 mcnemar 或手动建配对差值序列

分层分析时，`groupby` 后直接调 `proportions_ztest` 会出错

因为 proportions_ztest 不接受 Series，也不支持向量化。常见错误是写成 df.groupby('country')['converted'].apply(...)，结果报 ValueError: too many values to unpack。

PpcyAI

泡泡次元AI-游戏美术AI创作平台，低门槛上手，高度可控，让你的创意秒速落地

下载

正确做法：先用 agg 提取每层的 sum 和 count，组装成两个数组再喂给检验函数
分层后样本量可能不均——某国只有 20 个用户？跳过它，别强行合并或插值，否则假阳性飙升
如果要做 Bonferroni 校正，p 值阈值不是 0.05 / n_layers，而是 0.05 / (n_layers - 1)（对照组不算一层）

时间衰减效应会让当天跑的 `p_value` 失真

新用户和老用户行为节奏不同，第 1 天的点击率常被短期激励拉高，但第 7 天的留存才反映真实效果。直接拿首日数据跑检验，大概率早停（early stopping）误判。

立即学习“Python免费学习笔记（深入）”；

至少等齐最小周期：电商看 7 日 ROI，SaaS 看 14 日激活，别卡在第 3 天就下结论
用 pandas.cut 按曝光后小时分桶，画 conversion_rate 随时间变化曲线，确认是否已收敛
如果实验跑了 14 天但最后 2 天流量突降 40%，那这两天的数据权重该砍掉——不是删掉，是用 weights 参数传给检验函数

最麻烦的不是算不准，而是把分层、时序、样本依赖这几个坑叠在一起——这时候单独看任一指标都没问题，合起来却系统性偏移。盯住原始事件流，比盯汇总表安全得多。

Python clickhouse-driver 的异步支持

Python 中基于 TypedDict 的构造函数参数过滤与继承实现

Python 使用 run_in_executor 的正确姿势

Python KeyboardInterrupt 与 SystemExit 的特殊处理

Python 依赖供应链的安全审计

相关标签:

python scipy count 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 异步迭代器的使用场景下一篇：暂无

作者最新文章

漫蛙MANWA2官方网站入口漫蛙2MANWA2官方正版下载

2026-02-13 10:48

AO3HOMEARCHIVE-OF-OUR-OWN镜像网页入口

2026-02-13 10:48

字幕格式转换怎么弄_在线字幕格式转换操作教程

2026-02-13 10:54

发票抽奖老是显示未录入信息怎么办发票抽奖疑难解答

2026-02-13 11:24

消费品以旧换新政策怎么参与？两新两重政策是指什么

2026-02-13 11:45

网吧电脑怎么查看回放

2026-02-13 12:04

有兽焉动漫全集免费观看完整版有兽焉动漫新OP官网入口

2026-02-13 12:06

战神三部曲重制版官网战神三部曲重制版网页链接

2026-02-13 12:11

oppo官网买手机靠谱吗分析_OPPO官方商城购买手机可靠指南

2026-02-13 12:17

高级交互图表怎么设计？高级交互图表设计思路说明

2026-02-13 12:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

199

2023.11.20

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

490

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

288

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

749

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

526

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14