
本文详解如何在 Pandas 中对多列(如 Date_M 和 Corporate)分组后,高效计算指定类别(如 Vehicle type == 'truck')在每组中的占比,并将其作为新列添加到聚合结果中。
本文详解如何在 pandas 中对多列(如 `date_m` 和 `corporate`)分组后,高效计算指定类别(如 `vehicle type == 'truck'`)在每组中的占比,并将其作为新列添加到聚合结果中。
在数据分析中,常需在多级分组(如按月份和企业属性组合)后,进一步统计某分类变量(如车辆类型)的构成比例。例如,针对筛选出“未投保”(Insurance == 0)的记录,按 Date_M(年月)和 Corporate(是否企业客户)分组后,不仅需计算车辆总数、利润率等聚合指标,还需新增一列——每组中“truck”车型所占百分比。
关键在于:不能直接对整个 DataFrame 调用 .mean() 或 .sum(),而需在分组上下文中逐组计算布尔条件的满足比例。推荐使用 groupby().apply() 配合匿名函数,既语义清晰,又避免索引对齐错误。
以下为完整、可复现的操作流程(基于您提供的数据结构):
import pandas as pd
import numpy as np
# 构建示例数据
data = {
"Date": ["2019-08-26 04:14:00", "2020-08-27 01:21:03", "2019-08-26 18:49:04",
"2020-08-31 16:57:02", "2020-08-23 14:48:02"],
"Cost": [23719, 17159, 3629, 50738, 48173],
"Corporate": [0, 0, 0, 1, 0],
"Vehicle type": ["automobile", "truck", "truck", "automobile", "truck"],
"Price": [25903, 24748, 11777, 51296, 56314],
"Insurance": [1, 1, 0, 0, 0],
"Date_M": ["2019-08", "2020-08", "2019-08", "2020-08", "2020-08"],
}
df = pd.DataFrame(data)
# 步骤1:筛选子集(仅未投保记录)
df_no_insurance = df[df['Insurance'] == 0]
# 步骤2:按两列分组
df_group = df_no_insurance.groupby(['Date_M', 'Corporate'])
# 步骤3:构建聚合结果 DataFrame
results = pd.DataFrame()
results['Number of cars'] = df_group['Date'].count() # 每组车辆数
results['Доходность'] = np.round(
(df_group['Price'].sum() - df_group['Cost'].sum()) / df_group['Price'].sum() * 100, 2
) # 利润率(注意:此处原逻辑有歧义;实际应为每组分别计算 Price.sum() 和 Cost.sum())
# ✅ 步骤4:新增“truck 占比”列 —— 核心解法
results['Percentage of Trucks'] = df_group.apply(
lambda x: (x['Vehicle type'] == 'truck').sum() / len(x) * 100
).round(2)? 说明:df_group.apply(...) 中,x 是每个分组的子 DataFrame。(x['Vehicle type'] == 'truck') 返回布尔 Series,.sum() 自动将 True 视为 1、False 视为 0,再除以 len(x)(即该组总行数),即得 truck 占比。乘以 100 并四舍五入后即为百分比数值。
运行后,results 将包含三列:
- Number of cars:每组车辆总数;
- Доходность:该组整体利润率(注意:若需单辆车利润率均值,应改用 df_group.apply(lambda x: ((x['Price'] - x['Cost']) / x['Price']).mean() * 100));
- Percentage of Trucks:该组中 truck 类型车辆的百分比(如 2019-08 + Corporate=0 组含 1 条记录且为 truck,结果为 100.0)。
⚠️ 注意事项:
- 若分组后某组为空(如无 truck 记录),该方法仍安全返回 0.0(因布尔 sum 为 0,除以非零长度);
- 避免使用 df_group['Vehicle type'].apply(lambda x: (x == 'truck').mean() * 100) —— 虽等效但可读性略低;
- 如需支持多类别(如同时计算 truck/automobile/van 占比),建议改用 pd.crosstab() 或 value_counts(normalize=True) 配合 unstack()。
此方法简洁、健壮、符合 Pandas 函数式编程范式,适用于任意二元/多类分类占比统计场景。










