Pandas高效识别用户新增商家：两种基于集合比较的实现

霞舞

发布时间：2025-09-24 16:14:01

297人浏览过

来源于php中文网

原创

Pandas高效识别用户新增商家：两种基于集合比较的实现

本文详细介绍了在Pandas中，如何通过比较用户在不同时期（如前期和后期）的商家使用记录，来识别用户新增的商家。我们将探讨两种高效且专业的实现方法：利用pd.merge函数的indicator参数进行条件合并，以及通过构建MultiIndex并使用isin方法进行集合成员判断。这两种方法都能帮助数据分析师准确地在用户维度上识别新引入的商家，适用于处理类似的用户行为分析场景。

在数据分析中，识别用户行为的变化是一个常见的任务，例如，在特定时间段内，用户是否开始使用了新的服务或产品。本教程将聚焦于一个具体场景：给定用户在前期和后期使用的商家列表，如何高效地识别出在后期才首次出现的新商家，并将其标记出来。这需要我们对两个数据集中的(user_id, retailer)组合进行逐一比较，并在后期数据中添加一个表示“是否为新商家”的条件列。

首先，我们准备示例数据，模拟用户在前期（sample1）和后期（sample2）的商家使用记录：

import pandas as pd

# 前期商家使用数据
sample1 = pd.DataFrame(
    {
        'user_id': [45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2982, 2982],
        'retailer': ['retailer_1', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6', 
                     'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_1', 'retailer_2']
    }
)

# 后期商家使用数据
sample2 = pd.DataFrame(
    {
        'user_id': [45, 45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2673, 2982, 2982],
        'retailer': ['retailer_1', 'retailer_6', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6', 
                     'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_2', 'retailer_1', 'retailer_2']
    }
)

print("前期数据 (sample1):")
print(sample1)
print("\n后期数据 (sample2):")
print(sample2)

方法一：使用pd.merge的indicator参数

pd.merge函数在执行合并操作时，可以接受一个indicator参数。当设置为True或提供一个列名时，它会在结果DataFrame中添加一个名为_merge（或指定名称）的列，指示每行记录的来源。这对于识别仅存在于其中一个DataFrame中的记录非常有用。

实现步骤：

对后期数据sample2与前期数据sample1执行左连接（how='left'）。
在合并时，将indicator参数设置为一个新列名，例如'is_new_retailer'。
根据indicator列的值判断是否为新商家。'left_only'表示该行记录仅存在于左侧DataFrame（即sample2）中，这正是我们想要识别的新商家。

# 使用merge的indicator参数进行合并
# how='left' 确保sample2中的所有行都被保留
# indicator='is_new_retailer' 会添加一个列，指示每行的来源
merged_df = sample2.merge(sample1, on=['user_id', 'retailer'], how='left', indicator='is_new_retailer')

# 将indicator列中的'left_only'转换为1（新商家），其他转换为0（非新商家）
# .eq('left_only') 返回布尔Series
# .astype(int) 将布尔值转换为整数0或1
merged_df['is_new_retailer'] = merged_df['is_new_retailer'].eq('left_only').astype(int)

print("\n方法一结果 (使用merge和indicator):")
print(merged_df)

注意事项：

此方法简洁直观，尤其适用于识别一个DataFrame中相对于另一个DataFrame的“新增”记录。
on=['user_id', 'retailer']指定了用于匹配的键，确保我们是在(user_id, retailer)的组合上进行比较。
如果sample1中存在(user_id, retailer)的重复项，merge操作可能会导致sample2中对应的行被多次匹配，但这不会影响is_new_retailer的判断，因为只要在sample1中存在匹配，它就不会是'left_only'。
此方法假设sample2是我们要添加新列的目标DataFrame，并且其所有行都应被保留。

方法二：使用pd.MultiIndex和isin进行集合比较

另一种更通用的集合比较方法是利用Pandas的MultiIndex。通过将user_id和retailer组合成一个复合索引，我们可以高效地检查一个复合键是否存在于另一个复合键集合中。

万兴喵影

国产剪辑神器

下载

实现步骤：

从sample1和sample2中分别创建包含user_id和retailer的MultiIndex。这些MultiIndex代表了各自数据集中的(user_id, retailer)组合集合。
使用MultiIndex的isin()方法，检查sample2的MultiIndex中的每个组合是否存在于sample1的MultiIndex中。
对结果取反（~），即可得到哪些组合是sample2中独有的，即新商家。
将布尔结果转换为整数0或1，并赋值给sample2的新列。

# 从sample2和sample1创建MultiIndex
# MultiIndex将user_id和retailer组合成一个复合键
mux_sample2 = pd.MultiIndex.from_frame(sample2[['user_id', 'retailer']])
mux_sample1 = pd.MultiIndex.from_frame(sample1[['user_id', 'retailer']])

# 检查sample2的每个复合键是否在sample1中
# isin()返回一个布尔Series
# ~ 对布尔Series取反，找出不在sample1中的复合键（即新商家）
sample2['is_new_retailer'] = (~mux_sample2.isin(mux_sample1)).astype(int)

print("\n方法二结果 (使用MultiIndex和isin):")
print(sample2)

注意事项：

此方法在语义上更接近于集合操作，即判断一个元素是否属于另一个集合。
MultiIndex.isin()方法在处理大量数据时通常表现出良好的性能，因为它利用了Pandas底层的优化。
这种方法不会改变sample2的行数，直接在原DataFrame上添加新列。
它对原始数据中是否存在重复的(user_id, retailer)组合不敏感，因为MultiIndex本质上代表的是唯一的组合集合，即使原始DataFrame中有重复行，from_frame也会处理它们。

总结

本文介绍了两种在Pandas中识别用户新增商家的有效方法。

pd.merge与indicator参数：适用于需要将两个DataFrame进行合并，并根据合并结果判断记录来源的场景。它直观易懂，代码简洁，但需注意合并键的选择。
pd.MultiIndex与isin方法：更侧重于集合成员判断，适用于需要高效地比较两个复合键集合，找出其中差异元素的场景。它在处理复杂的多列组合比较时表现出更强的通用性和鲁棒性。

选择哪种方法取决于具体的业务需求和个人偏好。在大多数情况下，两种方法都能达到预期的效果。建议在实际应用中根据数据规模、性能要求以及代码可读性进行权衡。

PythonAI面试准备教程_核心问题与考察点

PythonAI项目学习法教程_通过实战掌握模型应用

PythonAI入门到进阶教程_完整成长路径解析

PythonAI学习资源教程_书籍课程工具选择

Python转人工智能路径教程_少走弯路的学习方法