Pandas数据怎么标准化_对列执行减去均值除以标准差运算

P粉602998670

发布时间：2026-03-18 12:21:31

420人浏览过

来源于php中文网

原创

StandardScaler最稳妥，因它严格按“先减均值、再除标准差”执行且保存训练参数；手写公式需显式设ddof=0才与之对齐，否则因无偏估计导致训练/推理不一致。

pandas数据怎么标准化_对列执行减去均值除以标准差运算

用 `StandardScaler` 对 DataFrame 列做标准化最稳

直接调 StandardScaler 是最可靠的方式，它内部严格按「先减均值、再除标准差」执行，且能统一保存训练时的 mean_ 和 scale_，避免线上预测时用错参数。手写 (df - df.mean()) / df.std() 看似简单，但默认下 df.std() 用的是无偏估计（ddof=1），而 StandardScaler 默认用的是总体标准差（ddof=0），结果不一致。

实操建议：

始终用 fit_transform() 处理训练集，用 transform() 处理测试集或新数据
如果只标准化某几列，传入列名列表给 StandardScaler，别对整个 DataFrame 直接调用——它会把非数值列也塞进去报错
注意 StandardScaler 不处理缺失值：NaN 会导致 fit() 报 ValueError: Input contains NaN，得先填或删

`df[col].apply(lambda x: (x - x.mean()) / x.std())` 为什么不对

这个写法常见但危险：它对每行单独算均值和标准差，相当于每行自己“标准化自己”，完全失去统计意义。真正需要的是全列共用一个均值、一个标准差。

正确手算方式（仅用于理解或极简场景）：

用 df[col].mean() 和 df[col].std(ddof=0) —— 显式指定 ddof=0 才和 StandardScaler 对齐
别用 df.std() 默认值，否则训练/推理不一致
如果列里有 NaN，mean() 和 std() 默认跳过，但要注意是否符合你的缺失值策略

标准化后怎么还原回原始值

必须依赖 StandardScaler 保存的 mean_ 和 scale_，靠记忆或重新计算均值/标准差大概率出错。

Jamboss

Jamboss是一款简单的AI音乐生成App，可以一键生成歌曲。

下载

还原操作只有这一种安全路径：

保存训练好的 scaler 对象（比如用 pickle.dump 或 joblib.dump）
还原时调 scaler.inverse_transform(X_scaled)，不能手动写 X_scaled * std + mean —— 因为 scale_ 是 std，但如果你改过 with_mean=False 或 with_std=False，逻辑就变了
传给 inverse_transform 的必须是二维数组，一维要 reshape：比如 scaler.inverse_transform(X_scaled.reshape(-1, 1))

和 MinMaxScaler 混用会踩什么坑

两者目的不同，但常被误当替代方案。标准化（z-score）假设数据近似正态，适合线性模型、PCA；归一化（0–1）不假设分布，适合神经网络输入或距离敏感算法。

混用典型错误：

在同一个特征上先 StandardScaler 再 MinMaxScaler，等于白干，还放大了数值误差
训练用 StandardScaler，推理却用 MinMaxScaler，模型直接失效
StandardScaler 的 scale_ 是标准差，MinMaxScaler 的 scale_ 是范围（max-min），名字一样但含义完全不同，看日志容易看串

实际项目里，最易被忽略的是：标准化必须和缺失值处理顺序强绑定——先决定怎么处理 NaN（删、填均值、填中位数），再标准化。顺序反了，填的值就不是标准化后的均值，整个流程就塌了。

相关标签:

pandas Lambda 对象 transform input 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python队列怎么用_queue模块与collections.deque性能对比下一篇：暂无

作者最新文章

Django怎么配置日志_settings中LOGGING字典配置与按天轮转

2026-03-18 10:37

如何分析AWR中的等待事件_Top 10 Foreground Events解读

2026-03-18 10:37

如何解决分区表数据导入时性能极差_直接路径加载Direct Path与禁用索引加载

2026-03-18 10:38

什么是Java 9新增的Flow API_响应式流(Reactive Streams)的发布订阅标准接口解析

2026-03-18 10:38

什么是Java中的守护线程(Daemon)_后台服务线程的特性与JVM退出条件

2026-03-18 10:38

如何重命名分区_ALTER TABLE RENAME PARTITION规范化分区命名机制

2026-03-18 10:38

CSS如何让进度条加载变得平滑而不再卡顿

2026-03-18 10:39

Python开发工具选哪个好_PyCharm与VSCode优缺点对比

2026-03-18 10:39

Python鼠标怎么录制轨迹_pynput记录并精确回放复杂系统键盘鼠标点击操作

2026-03-18 10:40

mysql权限如何迁移到新服务器_mysql授权迁移方法

2026-03-18 10:40

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

点击input框没有光标怎么办

点击input框没有光标的解决办法：1、确认输入框焦点；2、清除浏览器缓存；3、更新浏览器；4、使用JavaScript；5、检查硬件设备；6、检查输入框属性；7、调试JavaScript代码；8、检查页面其他元素；9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

198

2023.11.24