0

0

Pandas数据怎么标准化_对列执行减去均值除以标准差运算

P粉602998670

P粉602998670

发布时间:2026-03-18 12:21:31

|

420人浏览过

|

来源于php中文网

原创

StandardScaler最稳妥,因它严格按“先减均值、再除标准差”执行且保存训练参数;手写公式需显式设ddof=0才与之对齐,否则因无偏估计导致训练/推理不一致。

pandas数据怎么标准化_对列执行减去均值除以标准差运算

StandardScaler 对 DataFrame 列做标准化最稳

直接调 StandardScaler 是最可靠的方式,它内部严格按「先减均值、再除标准差」执行,且能统一保存训练时的 mean_scale_,避免线上预测时用错参数。手写 (df - df.mean()) / df.std() 看似简单,但默认下 df.std() 用的是无偏估计(ddof=1),而 StandardScaler 默认用的是总体标准差(ddof=0),结果不一致。

实操建议:

  • 始终用 fit_transform() 处理训练集,用 transform() 处理测试集或新数据
  • 如果只标准化某几列,传入列名列表给 StandardScaler,别对整个 DataFrame 直接调用——它会把非数值列也塞进去报错
  • 注意 StandardScaler 不处理缺失值:NaN 会导致 fit()ValueError: Input contains NaN,得先填或删

df[col].apply(lambda x: (x - x.mean()) / x.std()) 为什么不对

这个写法常见但危险:它对每行单独算均值和标准差,相当于每行自己“标准化自己”,完全失去统计意义。真正需要的是全列共用一个均值、一个标准差。

正确手算方式(仅用于理解或极简场景):

  • df[col].mean()df[col].std(ddof=0) —— 显式指定 ddof=0 才和 StandardScaler 对齐
  • 别用 df.std() 默认值,否则训练/推理不一致
  • 如果列里有 NaNmean()std() 默认跳过,但要注意是否符合你的缺失值策略

标准化后怎么还原回原始值

必须依赖 StandardScaler 保存的 mean_scale_,靠记忆或重新计算均值/标准差大概率出错。

Jamboss
Jamboss

Jamboss是一款简单的AI音乐生成App,可以一键生成歌曲。

下载

还原操作只有这一种安全路径:

  • 保存训练好的 scaler 对象(比如用 pickle.dumpjoblib.dump
  • 还原时调 scaler.inverse_transform(X_scaled),不能手动写 X_scaled * std + mean —— 因为 scale_std,但如果你改过 with_mean=Falsewith_std=False,逻辑就变了
  • 传给 inverse_transform 的必须是二维数组,一维要 reshape:比如 scaler.inverse_transform(X_scaled.reshape(-1, 1))

和 MinMaxScaler 混用会踩什么坑

两者目的不同,但常被误当替代方案。标准化(z-score)假设数据近似正态,适合线性模型、PCA;归一化(0–1)不假设分布,适合神经网络输入或距离敏感算法。

混用典型错误:

  • 在同一个特征上先 StandardScalerMinMaxScaler,等于白干,还放大了数值误差
  • 训练用 StandardScaler,推理却用 MinMaxScaler,模型直接失效
  • StandardScalerscale_ 是标准差,MinMaxScalerscale_ 是范围(max-min),名字一样但含义完全不同,看日志容易看串

实际项目里,最易被忽略的是:标准化必须和缺失值处理顺序强绑定——先决定怎么处理 NaN(删、填均值、填中位数),再标准化。顺序反了,填的值就不是标准化后的均值,整个流程就塌了。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

215

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

62

2026.01.05

点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.24

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

508

2023.08.14

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

109

2026.03.17

多环境下的 Nginx 安装、结构与运维实战
多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战,详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具,提供全链路管理方案,助力团队构建灵活、高可用的Nginx服务体系,从容应对复杂业务场景挑战。

13

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号