0

0

使用 Pandas 处理多重响应数据并生成交叉表教程

霞舞

霞舞

发布时间:2025-10-20 11:23:17

|

740人浏览过

|

来源于php中文网

原创

使用 Pandas 处理多重响应数据并生成交叉表教程

本教程详细介绍了如何使用 python 的 pandas 库处理多重响应(多选题)数据并生成交叉表。通过结合 `melt` 函数将多列数据重塑为长格式,再利用 `groupby` 和 `pivot_table` 进行聚合与透视,可以有效地分析多重响应变量与另一个分类变量之间的关系。文章还涵盖了百分比计算和构建通用函数的思路。

引言:多重响应数据与交叉表分析

在数据分析,特别是市场调研和问卷分析中,多重响应问题(Multiple Response Questions),即允许受访者选择多个答案的题目,是常见的类型。这类数据通常以“多列”形式存储,例如,一个问题“您购买产品时会考虑哪些因素?”可能对应“Q1_1: 价格”、“Q1_2: 品牌”、“Q1_3: 质量”等多个二元变量(0/1 或有/无)。传统的交叉表分析工具在处理这种多列分散的数据时会遇到挑战,因为它无法直接将这些分散的响应视为一个整体进行计数和交叉分析。

本教程旨在提供一个使用 Pandas 库处理这类数据的有效方法,通过数据重塑(data reshaping)技术,将多重响应数据转换为适合交叉表分析的格式,并最终生成清晰、易读的交叉表。

数据准备与问题示例

为了演示这一过程,我们首先构建一个示例数据集。假设我们有一个关于产品购买决策的问卷数据,其中“Q2”是一个多重响应问题(例如,受访者在哪里听到产品信息),其选项分布在 Q2_1、Q2_2、Q2_3 三列中。同时,我们有一个单选问题“Q3”,表示受访者是否购买了产品。

示例数据集:

Q2_1 Q2_2 Q2_3 Q3
Na loja Email Folheto Sim
Na loja Não
Na loja Email Sim
Folheto Sim

我们的目标是生成一个交叉表,显示 Q2 的各个响应选项(例如,“Na loja”、“Email”、“Folheto”)与 Q3(“Sim”、“Não”)之间的计数关系,例如:

Sim Não
Na loja 2 1
Email 2 0
Folheto 2 0

首先,我们使用 Pandas 创建这个示例 DataFrame:

import io
import pandas as pd

data = '''Q2_1,Q2_2,Q2_3,Q3
Na loja,Email,Folheto,Sim
Na loja,,,Não
Na loja,Email,,Sim
,,Folheto,Sim'''

df = pd.read_csv(io.StringIO(data), sep=',', engine='python')
print("原始数据:")
print(df)

输出:

Playground AI
Playground AI

AI图片生成和修图

下载
原始数据:
    Q2_1   Q2_2     Q2_3   Q3
0  Na loja  Email  Folheto  Sim
1  Na loja    NaN      NaN  Não
2  Na loja  Email      NaN  Sim
3      NaN    NaN  Folheto  Sim

核心步骤一:数据重塑 (Melt)

处理多重响应数据的关键在于将其从“宽格式”(每个响应选项一列)转换为“长格式”(所有响应选项合并到一个列中)。pandas.melt() 函数是实现这一目标的高效工具。

melt 函数通过以下参数工作:

  • id_vars: 指定保持不变的标识符列。在本例中,是我们的目标变量 Q3。
  • value_vars: 指定需要重塑(“融化”)的列。在本例中,是 Q2_1、Q2_2、Q2_3。

melt 操作会将 value_vars 中的所有值堆叠到一个新的“value”列中,同时创建一个“variable”列来标识这些值来自哪个原始列。由于我们只关心响应值本身,不关心它具体来自 Q2_1 还是 Q2_2,所以可以随后删除“variable”列。

# 将多重响应列 Q2_1, Q2_2, Q2_3 重塑为长格式
dfm = df.melt(id_vars=['Q3'], value_vars=['Q2_1', 'Q2_2', 'Q2_3'])

# 移除不再需要的 'variable' 列,因为它只是指示原始列名
dfm = dfm.drop('variable', axis=1)

# 移除重塑后产生的 NaN 值,这些 NaN 值表示该行没有对应的响应
dfm = dfm.dropna()

print("\n重塑后的数据 (dfm):")
print(dfm)

输出:

重塑后的数据 (dfm):
      Q3    value
0    Sim  Na loja
1    Não  Na loja
2    Sim  Na loja
4    Sim    Email
6    Sim    Email
8    Sim  Folheto
11   Sim  Folheto

可以看到,Q2_1、Q2_2、Q2_3 中的所有非空响应都被收集到了 value 列中,并且每一行都与对应的 Q3 值配对。

核心步骤二:聚合与透视 (Groupby & Pivot_table)

数据重塑后,我们现在拥有了一个可以进行标准聚合操作的 DataFrame。接下来,我们将使用 groupby() 进行计数,并使用 pivot_table() 将结果转换为最终的交叉表格式。

  1. 分组计数 (groupby): 我们将按照 value 列(即多重响应的各个选项)和 Q3 列(目标变量)进行分组,并计算每个组合的出现次数。

  2. 透视表 (pivot_table): pivot_table 函数将分组后的计数结果重新组织成一个交叉表。

    • index: 指定作为行索引的列,这里是 value。
    • columns: 指定作为列标题的列,这里是 Q3。
    • values: 指定要聚合的值,这里是计数结果。
    • aggfunc: 指定聚合函数,这里是 sum(因为我们已经通过 groupby 得到了计数,pivot_table 只是重新排列)。
    • fill_value: 用于填充没有数据交叉点的缺失值,通常设为 0。
# 按 'value' 和 'Q3' 分组并计数
dfg = dfm.groupby(['value', 'Q3']).agg(count=('value', 'count')).reset_index()
print("\n分组计数结果 (dfg):")
print(dfg)

# 使用 pivot_table 将分组结果转换为交叉表
dff = pd.pivot_table(dfg, values='count', index=['value'], columns=['Q3'], aggfunc="sum", fill_value=0)
print("\n最终交叉表 (dff):")
print(dff)

输出:

分组计数结果 (dfg):
     value   Q3  count
0    Email  Sim      2
1  Folheto  Sim      2
2  Na loja  Não      1
3  Na loja  Sim      2

最终交叉表 (dff):
Q3         Não  Sim
value              
Email        0    2
Folheto      0    2
Na loja      1    2

这样,我们就成功生成了期望的交叉表,展示了多重响应问题 Q2 的各项与 Q3 之间的关系。

功能扩展:百分比计算与通用函数

在实际分析中,除了绝对计数,我们通常还需要计算百分比,例如列百分比(各选项占对应 Q3 类别总数的百分比)。

计算列百分比

在得到绝对计数交叉表 dff 后,计算列百分比非常简单。只需将每个单元格的值除以其所在列的总和。

# 计算列百分比
dff_pct = dff.apply(lambda x: x / x.sum(), axis=0)
print("\n列百分比交叉表:")
print(dff_pct.round(2)) # 四舍五入到两位小数

输出:

列百分比交叉表:
Q3       Não   Sim
value             
Email   0.00  0.33
Folheto 0.00  0.33
Na loja 1.00  0.33

从列百分比交叉表可以看出:

  • 在“Não”的受访者中,100%的人提到了“Na loja”。
  • 在“Sim”的受访者中,提到“Email”、“Folheto”、“Na loja”的比例均为33%。

构建通用函数

为了方便重复使用,我们可以将上述逻辑封装成一个通用函数。这个函数可以接受原始 DataFrame、多重响应列的列表、目标变量列的名称以及一个指示是否计算百分比的参数。

def calculate_multiple_response_crosstab(
    df: pd.DataFrame,
    mr_cols: list,
    target_col: str,
    output_type: str = 'count' # 'count' 或 'percentage'
) -> pd.DataFrame:
    """
    计算多重响应问题与目标变量的交叉表。

    参数:
    df (pd.DataFrame): 原始数据集。
    mr_cols (list): 包含多重响应问题所有子列名的列表。
    target_col (str): 目标变量的列名。
    output_type (str): 输出类型,'count' 表示绝对计数,'percentage' 表示列百分比。

    返回:
    pd.DataFrame: 生成的交叉表。
    """
    if not all(col in df.columns for col in mr_cols + [target_col]):
        raise ValueError("mr_cols 或 target_col 中有列名不存在于 DataFrame 中。")

    # 1. 数据重塑 (melt)
    df_melted = df.melt(id_vars=[target_col], value_vars=mr_cols)
    df_melted = df_melted.drop('variable', axis=1).dropna()

    if df_melted.empty:
        print("警告:重塑后无有效数据,可能所有多重响应列都为空。")
        return pd.DataFrame()

    # 2. 分组计数 (groupby)
    df_grouped = df_melted.groupby(['value', target_col]).agg(count=('value', 'count')).reset_index()

    # 3. 透视表 (pivot_table)
    crosstab_df = pd.pivot_table(
        df_grouped,
        values='count',
        index=['value'],
        columns=[target_col],
        aggfunc="sum",
        fill_value=0
    )

    # 4. 计算百分比(如果需要)
    if output_type == 'percentage':
        # 避免除以零,如果某一列总和为0,则该列百分比全为0
        crosstab_df = crosstab_df.apply(lambda x: x / x.sum() if x.sum() != 0 else 0, axis=0)
        crosstab_df = crosstab_df.round(4) # 保留4位小数

    return crosstab_df

# 使用通用函数
# 计算绝对计数
crosstab_counts = calculate_multiple_response_crosstab(df, ['Q2_1', 'Q2_2', 'Q2_3'], 'Q3', output_type='count')
print("\n使用通用函数生成的绝对计数交叉表:")
print(crosstab_counts)

# 计算列百分比
crosstab_percentages = calculate_multiple_response_crosstab(df, ['Q2_1', 'Q2_2', 'Q2_3'], 'Q3', output_type='percentage')
print("\n使用通用函数生成的列百分比交叉表:")
print(crosstab_percentages)

关于目标变量也为多重响应的思考: 如果目标变量 Q3 本身也是一个多重响应问题(例如,Q3_1, Q3_2),那么在调用函数之前,需要对 Q3 的多重响应列也进行类似的 melt 操作,然后将处理后的 Q3 数据与处理后的 Q2 数据进行合并,再进行 groupby 和 pivot_table。这会使逻辑更复杂,通常需要更精细的数据合并策略。

注意事项与最佳实践

  1. 数据清洗 在进行分析前,确保多重响应列中的文本数据是统一的(例如,“Na loja”和“na loja”应统一)。缺失值(NaN)在 melt 后通常会被 dropna() 自动处理。
  2. 列名管理: 准确地识别并提供 mr_cols 列表至关重要。如果多重响应问题较多,可以使用字典来管理,例如 {'Q2': ['Q2_1', 'Q2_2', 'Q2_3'], 'Q4': ['Q4_1', ...]}。在函数内部,可以根据字典的值来构建 mr_cols。
  3. 结果解读: 绝对计数交叉表直观地显示了共现频率,而百分比交叉表则有助于理解比例关系。根据分析目的选择合适的输出类型。
  4. 性能考虑: 对于非常大的数据集,pandas 的 melt 和 pivot_table 操作通常是高效的。但在极端情况下,可能需要考虑内存使用和计算效率。

总结

通过结合 pandas.melt() 和 pandas.pivot_table(),我们可以有效地处理多重响应数据并生成有意义的交叉表。melt 函数将分散在多列中的响应值聚合到一列,解决了多重响应数据的结构性挑战;随后 groupby 和 pivot_table 则提供了灵活的聚合和可视化方式。这种方法不仅适用于市场研究和问卷分析,也广泛应用于需要将宽格式数据转换为长格式进行聚合分析的各种场景。掌握这一技术,将大大提升处理复杂数据集的能力。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

769

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

639

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1305

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

709

2023.08.11

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 8.3万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号