高效统计180万行数据中城市与犯罪类型的组合频次

霞舞

发布时间：2026-01-20 10:38:36

233人浏览过

来源于php中文网

原创

高效统计180万行数据中城市与犯罪类型的组合频次

本文介绍如何使用pandas高效处理大规模（180万行）结构化文本数据，针对“多值分隔字段”（如london~paris~new york）进行展开与交叉计数，快速生成每个城市的各类犯罪事件频次统计表。

在分析含重复值、多标签字段的大规模日志或调查数据时（如本例中每行可包含多个城市和多种犯罪类型），传统循环+嵌套字典或预定义数组的方式不仅代码冗长、易出错，且性能低下。而Pandas提供了声明式、向量化的方法，兼顾可读性与执行效率——尤其适合处理1.8M行级别的中等规模数据集。

核心思路是：先“展开”（explode）多值字段为原子行，再按组合分组计数。具体步骤如下：

读取数据（假设CSV格式，列名为City和Crime）
字符串切分 + 展开：对City和Crime两列分别用str.split('~')转为列表，再调用.explode()将每个列表元素扩展为独立行；
分组聚合：使用groupby(["City", "Crime"]).size()直接获取每组出现次数（比value_counts()更直观，且返回Series便于后续操作）；
结果格式化（可选）：按需转换为嵌套字典、宽表或自定义字符串格式（如"Murder(2), Theft(1)"）。

✅ 完整可运行示例：

DeepSider

浏览器AI侧边栏对话插件，集成多个AI大模型

下载

import pandas as pd

# 读取数据（生产环境建议指定 dtype 和 chunksize 优化内存）
df = pd.read_csv("cities_crimes.csv", dtype={"City": "string", "Crime": "string"})

# 展开 City 字段
df_exploded = df.assign(City=df["City"].str.split('~')).explode("City")
# 展开 Crime 字段（注意：必须在 City 展开后进行，否则笛卡尔爆炸）
df_exploded = df_exploded.assign(Crime=df_exploded["Crime"].str.split('~')).explode("Crime")

# 统计每城-每罪组合频次
city_crime_counts = df_exploded.groupby(["City", "Crime"]).size().reset_index(name="count")

# 可选：按 City 分组，聚合为字符串（匹配题目输出格式）
result = (
    city_crime_counts
    .assign(crime_count=lambda x: x["Crime"] + "(" + x["count"].astype(str) + ")")
    .groupby("City")["crime_count"]
    .apply(lambda x: ", ".join(x))
    .reset_index(name="Crimes")
)

⚠️ 注意事项：

explode() 要求字段为列表类型，若原始数据含空值（NaN），需提前用 .fillna("") 或 .dropna(subset=["City", "Crime"]) 处理，否则会引发错误；
若内存受限，可考虑分块读取（chunksize参数）并用defaultdict(Counter)做流式累加；
对于超大规模（>10M行）或实时场景，可进一步结合Dask或Polars提升性能，但Pandas在此量级已足够高效（实测1.8M行通常在10秒内完成）；
最终输出的Crimes列是字符串，如需后续数值分析，建议保留长格式（City, Crime, count三列）而非合并成单字段。

通过此方法，你彻底摆脱了手动维护1200个城市×70种犯罪的索引映射和海量if判断，以清晰、健壮、高性能的方式完成复杂多值关联统计。

Python手机自动化怎么做_Appium客户端配置与安卓苹果手机APP全量自动化

Dash App 多下拉框联动失效的常见原因与修复方案

Python怎么抓包_mitmproxy实现手机PC中间人网络请求拦截篡改与数据截获

Python Flask怎么配路由_app.route装饰器绑定与带类型约束的动态URL参数传递

Django怎么创建App_startapp命令与INSTALLED_APPS注册

相关标签:

csv pandas if count 字符串循环事件

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：logging 如何让不同模块输出不同级别的日志文件下一篇：asyncio.shield() 真正的保护范围与取消边界情况

作者最新文章

猫眼电影怎么进行影评与评分

2026-03-15 14:17

Pandas 中按 code 分组前向填充 -1 值并按时间排序的正确实现

2026-03-15 14:43

如何在 Python 中约束可变参数函数的所有参数均为 JSON 兼容类型

2026-03-15 14:50

如何使用 Eloquent 高效筛选至少关联一个子模型的父级集合

2026-03-15 14:56

研究发现《我的世界》和《罗布乐思》玩家较少游玩3A新作

2026-03-15 14:56

TypeScript ESM 导入中解决无扩展名路径报错的正确配置方案

2026-03-15 15:08

Go 语言中如何在函数内部定义带方法的结构体（模拟接口实现的正确姿势）

2026-03-15 15:16

如何在 Python 中优雅地调用登录成功后的函数

2026-03-15 15:26

如何在 OpenAI 响应中正确移除多行代码块的三重反引号（）标记

2026-03-15 15:39

眼镜到底有多暴利：标价799元的镜片进价仅15元

2026-03-15 15:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板