如何在 Pandas 中按组动态计算递增百分比并确保末位恒为 100

心靈之曲

发布时间：2026-01-17 08:13:16

520人浏览过

来源于php中文网

原创

如何在 Pandas 中按组动态计算递增百分比并确保末位恒为 100

本文介绍一种高效方法：对每组连续的 `1`（最多 6 个）动态分配递增百分比值，使最后一个 `1` 对应 100%，无论实际连续长度是否小于 6；`0` 则统一置为 0。

要实现这一目标，关键在于不依赖固定步长（如 100/6 累加），而是根据每段连续 1 的真实长度动态生成等距百分比序列，并保证末项严格为 100。原始方案中硬编码 100/6 导致短序列无法触达 100，而正确解法需先识别每段连续 1 的边界，再按其实际长度缩放比例。

以下是推荐的完整实现（兼容多 ID 分组、自动处理变长连续段）：

import pandas as pd
import numpy as np

# 示例数据（含多个 ID 和不同长度的连续 1）
df = pd.DataFrame({
    'ID': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
    'TARGET': [1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0]
})

# 步骤 1：识别连续块（基于 TARGET 变化）
df['block_id'] = (df['TARGET'] != df['TARGET'].shift()).cumsum()
# 步骤 2：仅对 TARGET == 1 的块计算累计序号（从 1 开始）
mask_ones = df['TARGET'] == 1
df.loc[mask_ones, 'rank_in_block'] = df[mask_ones].groupby('block_id').cumcount() + 1
# 步骤 3：获取每块中 1 的总数（即块长度）
block_lengths = df[mask_ones].groupby('block_id')['TARGET'].transform('size')
# 步骤 4：动态计算百分比：(rank / total_length) * 100 → 向下取整（或四舍五入）
df['PERCENTAGE'] = np.where(
    mask_ones,
    ((df['rank_in_block'] / block_lengths) * 100).round().astype(int),
    0
)

print(df[['ID', 'TARGET', 'PERCENTAGE']])

输出示例：

   ID  TARGET  PERCENTAGE
0   A       1          25
1   A       1          50
2   A       1          75
3   A       1         100
4   A       0           0
5   A       0           0
6   A       0           0
7   B       1          33
8   B       1          66
9   B       1         100
10  B       0           0

✅ 核心优势：

Copy.ai

Copy.ai 是一个人工智能驱动的文案生成器

下载

自动适配任意长度的连续 1 段（1~6 均可），始终以 100% 收尾；
支持多 ID 分组，各组独立计算互不影响；
使用向量化操作，性能优于循环或 apply；
round().astype(int) 确保整数输出（如需保留小数可移除 .astype(int)）。

⚠️ 注意事项：

若数据中存在 TARGET 非 0/1 值，需提前清洗或扩展 mask_ones 条件；
连续块识别依赖 TARGET 列顺序，确保数据已按业务逻辑排序（如时间戳）；
如需严格匹配原题中 [16, 33, 50, 66, 83, 100] 的离散值（而非线性插值），可改用预定义映射表 + map，但会牺牲灵活性。

该方法兼顾准确性、可读性与扩展性，是处理动态比例填充任务的稳健实践。

Python GIL 到底限制了什么？

Python 如何判断当前文件是否被作为主模块运行（main）

fastapi 如何实现 token 刷新机制（不使用 jwt 库）

fastapi 如何让一个 endpoint 支持同步和异步两种实现

如何在 pyzipcode 中安全地处理无效邮编错误

相关标签:

编码 app pandas int 循环 map

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 如何让一个生成器函数支持多次迭代（不消耗）下一篇：如何将 Peewee 查询对象序列化为字符串或 JSON 并反序列化还原？

作者最新文章

Go 项目中如何组织同包文件到不同子目录（如 models）

2026-01-15 15:43

国产像素《菲尔纳传说》登陆Steam 5年打造复古RPG

2026-01-15 15:45

如何让按钮在响应式布局中保持固定位置不随屏幕缩放偏移

2026-01-15 15:48

标题：使用 AspectJ 实现对带注解成员变量的读写访问拦截

2026-01-15 15:48

使用 Socket.IO 连接 Node.js 与 Go 服务端的潜在缺陷分析

2026-01-15 15:50

程序员笔记 CherryTree 1.6.3 发布

2026-01-15 15:52

搜打撤热门新游《ARC Raiders》Steam版现已封锁国区

2026-01-15 15:56

美团外卖开学季红包怎么领取

2026-01-15 15:59

Go 项目中如何正确组织多目录结构的同包代码

2026-01-15 16:02

标题：使用 AspectJ 实现基于字段注解的读写访问拦截教程

2026-01-15 16:06

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

318

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

538

2024.08.29