0

0

高效实现带去重逻辑的滚动均值计算(面试题解析与优化方案)

聖光之護

聖光之護

发布时间:2026-03-04 09:54:01

|

965人浏览过

|

来源于php中文网

原创

高效实现带去重逻辑的滚动均值计算(面试题解析与优化方案)

本文详解如何在时间序列数据中按时间点动态计算滚动均值,同时确保每个名称仅保留最新一次出现的值参与计算,兼顾算法效率与代码可读性。

本文详解如何在时间序列数据中按时间点动态计算滚动均值,同时确保每个名称仅保留最新一次出现的值参与计算,兼顾算法效率与代码可读性。

在数据分析与算法面试中,“带条件的滚动统计”是一类典型问题——它不仅考察对基础聚合操作的理解,更检验候选人对数据去重逻辑、窗口扩展策略及时间复杂度控制的综合能力。本题要求:对按时间排序的数据,为每个时间点 t 计算“截至 t 的所有记录中,每个 name 仅取其最后一次出现的 val 值”后的均值”。关键约束在于:不能重复全量遍历历史数据(即避免 O(n²) 复杂度),需设计增量或准增量式解法**。

以下提供两种专业级实现方案,均基于 pandas(主流且易验证),但思路可轻松迁移到纯 Python 或 SQL 环境:

✅ 方案一:分组 + 累积去重(推荐|清晰高效)

核心思想:先按 time 分组,对每组内 names 做 last 去重 → 再对各时间点前缀(含当前)的所有去重结果合并 → 最后按时间点聚合均值。

Logomaster.ai
Logomaster.ai

Logo在线生成工具

下载
import pandas as pd

data = pd.DataFrame({
    'time': [1, 1, 1, 2, 2, 2],
    'names': ["Andy", "Bob", "Karen", "Andy", "Matt", "Sim"],
    'val': [1, 2, 3, 5, 6, 8]
})

# 步骤1:对每个 time 组内,按 names 保留最后出现的 val(隐含时间先后顺序)
# 注意:若原始数据未按 time 排序,务必先 sort_values(['time', 'names'], kind='stable')
grouped_last = data.groupby('time').apply(
    lambda g: g.drop_duplicates(subset='names', keep='last')[['names', 'val']]
).reset_index(drop=True)

# 步骤2:构建“截至每个 time”的累积视图(模拟滚动窗口)
cumulative_records = []
seen_names = set()
for t in sorted(data['time'].unique()):
    # 取出 time <= t 的所有记录,并按 names 逆序去重(保证最新覆盖旧值)
    window = data[data['time'] <= t].sort_values('time', ascending=True)
    # 关键:drop_duplicates(keep='last') 在已排序的 window 中等价于取每个 name 的最新 val
    latest_in_window = window.drop_duplicates(subset='names', keep='last')
    cumulative_records.append(latest_in_window)

# 步骤3:合并并计算各 time 点均值
result_df = pd.concat(cumulative_records, ignore_index=True)
means = result_df.groupby('time')['val'].mean().to_dict()

print(means)  # {1: 2.0, 2: 4.8}

✅ 方案二:字典状态维护(极致高效|O(n) 时间复杂度)

适用于大数据流或内存敏感场景。用字典 latest_vals 动态追踪每个 name 的最新 val,遍历时间点时实时更新并累加均值:

def rolling_mean_no_duplicate_names(df):
    df_sorted = df.sort_values('time')  # 必须保证时间有序
    latest_vals = {}  # name -> latest val
    means = {}

    for _, row in df_sorted.iterrows():
        # 更新该 name 的最新值
        latest_vals[row['names']] = row['val']
        # 当前时间点的所有最新值均值
        current_mean = sum(latest_vals.values()) / len(latest_vals)
        means[row['time']] = round(current_mean, 1)  # 可选精度控制

    return means

print(rolling_mean_no_duplicate_names(data))  # {1: 2.0, 2: 4.8}

⚠️ 注意事项与进阶提示

  • 数据顺序至关重要:drop_duplicates(keep='last') 依赖行序。若原始数据中同一 time 内 names 出现顺序不反映业务时效性,需额外定义排序键(如添加 timestamp 列)。
  • 空值处理:实际场景中需检查 val 是否为 NaN,建议在 .mean() 前添加 dropna=True。
  • 扩展性思考:若需支持“最近 N 次”而非“最后一次”,可改用 collections.deque 维护每个 name 的滑动值队列。
  • 面试表达重点:优先说明方案二的时间复杂度优势(单次遍历 O(n)),再补充方案一的可读性与可调试性;强调“状态维护”是解决此类滚动+去重问题的核心范式。

掌握这种“滚动窗口 + 键级状态更新”的建模思维,不仅能应对类似面试题,更是构建实时特征工程管道的关键能力。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

1090

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

339

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

380

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1988

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

379

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1540

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

585

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

438

2024.04.29

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

21

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号