0

0

Pandas高效识别用户新增商家:两种基于集合比较的实现

霞舞

霞舞

发布时间:2025-09-24 16:14:01

|

297人浏览过

|

来源于php中文网

原创

Pandas高效识别用户新增商家:两种基于集合比较的实现

本文详细介绍了在Pandas中,如何通过比较用户在不同时期(如前期和后期)的商家使用记录,来识别用户新增的商家。我们将探讨两种高效且专业的实现方法:利用pd.merge函数的indicator参数进行条件合并,以及通过构建MultiIndex并使用isin方法进行集合成员判断。这两种方法都能帮助数据分析师准确地在用户维度上识别新引入的商家,适用于处理类似的用户行为分析场景。

在数据分析中,识别用户行为的变化是一个常见的任务,例如,在特定时间段内,用户是否开始使用了新的服务或产品。本教程将聚焦于一个具体场景:给定用户在前期和后期使用的商家列表,如何高效地识别出在后期才首次出现的新商家,并将其标记出来。这需要我们对两个数据集中的(user_id, retailer)组合进行逐一比较,并在后期数据中添加一个表示“是否为新商家”的条件列。

首先,我们准备示例数据,模拟用户在前期(sample1)和后期(sample2)的商家使用记录:

import pandas as pd

# 前期商家使用数据
sample1 = pd.DataFrame(
    {
        'user_id': [45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2982, 2982],
        'retailer': ['retailer_1', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6', 
                     'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_1', 'retailer_2']
    }
)

# 后期商家使用数据
sample2 = pd.DataFrame(
    {
        'user_id': [45, 45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2673, 2982, 2982],
        'retailer': ['retailer_1', 'retailer_6', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6', 
                     'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_2', 'retailer_1', 'retailer_2']
    }
)

print("前期数据 (sample1):")
print(sample1)
print("\n后期数据 (sample2):")
print(sample2)

方法一:使用pd.merge的indicator参数

pd.merge函数在执行合并操作时,可以接受一个indicator参数。当设置为True或提供一个列名时,它会在结果DataFrame中添加一个名为_merge(或指定名称)的列,指示每行记录的来源。这对于识别仅存在于其中一个DataFrame中的记录非常有用。

实现步骤:

  1. 对后期数据sample2与前期数据sample1执行左连接(how='left')。
  2. 在合并时,将indicator参数设置为一个新列名,例如'is_new_retailer'。
  3. 根据indicator列的值判断是否为新商家。'left_only'表示该行记录仅存在于左侧DataFrame(即sample2)中,这正是我们想要识别的新商家。
# 使用merge的indicator参数进行合并
# how='left' 确保sample2中的所有行都被保留
# indicator='is_new_retailer' 会添加一个列,指示每行的来源
merged_df = sample2.merge(sample1, on=['user_id', 'retailer'], how='left', indicator='is_new_retailer')

# 将indicator列中的'left_only'转换为1(新商家),其他转换为0(非新商家)
# .eq('left_only') 返回布尔Series
# .astype(int) 将布尔值转换为整数0或1
merged_df['is_new_retailer'] = merged_df['is_new_retailer'].eq('left_only').astype(int)

print("\n方法一结果 (使用merge和indicator):")
print(merged_df)

注意事项:

  • 此方法简洁直观,尤其适用于识别一个DataFrame中相对于另一个DataFrame的“新增”记录。
  • on=['user_id', 'retailer']指定了用于匹配的键,确保我们是在(user_id, retailer)的组合上进行比较。
  • 如果sample1中存在(user_id, retailer)的重复项,merge操作可能会导致sample2中对应的行被多次匹配,但这不会影响is_new_retailer的判断,因为只要在sample1中存在匹配,它就不会是'left_only'。
  • 此方法假设sample2是我们要添加新列的目标DataFrame,并且其所有行都应被保留。

方法二:使用pd.MultiIndex和isin进行集合比较

另一种更通用的集合比较方法是利用Pandas的MultiIndex。通过将user_id和retailer组合成一个复合索引,我们可以高效地检查一个复合键是否存在于另一个复合键集合中。

万兴喵影
万兴喵影

国产剪辑神器

下载

实现步骤:

  1. 从sample1和sample2中分别创建包含user_id和retailer的MultiIndex。这些MultiIndex代表了各自数据集中的(user_id, retailer)组合集合。
  2. 使用MultiIndex的isin()方法,检查sample2的MultiIndex中的每个组合是否存在于sample1的MultiIndex中。
  3. 对结果取反(~),即可得到哪些组合是sample2中独有的,即新商家。
  4. 将布尔结果转换为整数0或1,并赋值给sample2的新列。
# 从sample2和sample1创建MultiIndex
# MultiIndex将user_id和retailer组合成一个复合键
mux_sample2 = pd.MultiIndex.from_frame(sample2[['user_id', 'retailer']])
mux_sample1 = pd.MultiIndex.from_frame(sample1[['user_id', 'retailer']])

# 检查sample2的每个复合键是否在sample1中
# isin()返回一个布尔Series
# ~ 对布尔Series取反,找出不在sample1中的复合键(即新商家)
sample2['is_new_retailer'] = (~mux_sample2.isin(mux_sample1)).astype(int)

print("\n方法二结果 (使用MultiIndex和isin):")
print(sample2)

注意事项:

  • 此方法在语义上更接近于集合操作,即判断一个元素是否属于另一个集合。
  • MultiIndex.isin()方法在处理大量数据时通常表现出良好的性能,因为它利用了Pandas底层的优化。
  • 这种方法不会改变sample2的行数,直接在原DataFrame上添加新列。
  • 它对原始数据中是否存在重复的(user_id, retailer)组合不敏感,因为MultiIndex本质上代表的是唯一的组合集合,即使原始DataFrame中有重复行,from_frame也会处理它们。

总结

本文介绍了两种在Pandas中识别用户新增商家的有效方法。

  • pd.merge与indicator参数:适用于需要将两个DataFrame进行合并,并根据合并结果判断记录来源的场景。它直观易懂,代码简洁,但需注意合并键的选择。
  • pd.MultiIndex与isin方法:更侧重于集合成员判断,适用于需要高效地比较两个复合键集合,找出其中差异元素的场景。它在处理复杂的多列组合比较时表现出更强的通用性和鲁棒性。

选择哪种方法取决于具体的业务需求和个人偏好。在大多数情况下,两种方法都能达到预期的效果。建议在实际应用中根据数据规模、性能要求以及代码可读性进行权衡。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

72

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

72

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号