【完结篇】专栏 | 基于 Jupyter 的特征工程手册：特征降维

蓮花仙者

发布时间：2025-07-15 09:29:03

1106人浏览过

来源于php中文网

原创

经过数据预处理和特征选择，我们已经成功生成了一组优质的特征子集。然而，这组子集可能仍然包含过多的特征，导致训练模型时需要消耗过多的计算资源。在这种情况下，我们可以运用降维技术进一步压缩特征子集，但这可能会影响模型的性能。

与此同时，如果时间有限，我们也可以在数据预处理后直接采用降维方法，将原始特征空间压缩成新的特征子集。

在本文中，我们将详细介绍两种常用的降维技术：PCA（主成分分析）和LDA（线性判别分析）。

项目地址：

https://www.php.cn/link/e75b50aaf9e8125e58481a0cff44b539

本文将探讨特征工程中的特征降维技术。

【完结篇】专栏 | 基于 Jupyter 的特征工程手册：特征降维

1.1 非监督方法

1.1.1 主成分分析（PCA）

主成分分析（PCA）是一种无监督的机器学习技术，其目的是通过线性变换将原始特征投影到一系列线性无关的单位向量上，同时尽可能保留原始数据的信息（方差）。更多数学细节可在我们Github上的repo中查看。

https://www.php.cn/link/36f3776e5d1d89eed81547772a9d6a4f

Spacely AI

为您的房间提供AI室内设计解决方案，寻找无限的创意

下载

代码语言：javascript代码运行次数：0运行复制```javascript import numpy as np import pandas as pd from sklearn.decomposition import PCA

直接载入数据集

from sklearn.datasets import fetch_california_housing dataset = fetch_california_housing() X, y = dataset.data, dataset.target # 使用 california_housing 数据集来演示

选择前15000个观测点作为训练集

剩下的作为测试集

train_set = X[0:15000,:] test_set = X[15000:,] train_y = y[0:15000]

在使用主成分分析前，我们需要先对变量进行缩放操作，否则PCA将会赋予高尺度的特征过多的权重

from sklearn.preprocessing import StandardScaler model = StandardScaler() model.fit(train_set) standardized_train = model.transform(train_set) standardized_test = model.transform(test_set)

开始压缩特征

compressor = PCA(n_components=0.9) # 将n_components设置为0.9 =>

即要求我们从所有主成分中选取的输出主成分至少能保留原特征中90%的方差

我们也可以通过设置n_components参数为整数直接控制输出的变量数目

compressor.fit(standardized_train) # 在训练集上训练 transformed_trainset = compressor.transform(standardized_train) # 转换训练集 (20000,5)

即我们从8个主成分中选取了前5个主成分，而这前5个主成分可以保证保留原特征中90%的方差

transformed_testset = compressor.transform(standardized_test) # 转换测试集 assert transformed_trainset.shape[1] == transformed_testset.shape[1] # 转换后训练集和测试集有相同的特征数

<code>
代码语言：javascript代码运行次数：0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制```javascript
# 可视化 所解释的方差与选取的主成分数目之间的关系
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
%matplotlib inline
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1,
         np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('选取的主成分数目')
plt.ylabel('累计所解释的方差累')
plt.show(); # 前5个主成分可以保证保留原特征中90%的方差</code>

【完结篇】专栏 | 基于 Jupyter 的特征工程手册：特征降维

1.2 监督方法

1.2.1 线性判别分析（LDA）

与PCA不同，线性判别分析（LDA）是一种有监督的机器学习技术，其目标是找到一个特征子集，使得类别之间的线性可分性最大化，即希望同一类别数据的投影点尽可能接近，而不同类别数据的类别中心之间的距离尽可能大。LDA主要用于分类问题，并假设各类别的样本数据符合高斯分布且具有相同的协方差矩阵。

更多关于LDA原理的详细信息可以在sklearn的官方网站上找到。LDA会将原始变量压缩为（K-1）个，其中K是目标变量的类别数。但在sklearn中，通过将PCA的思想整合到LDA中，可以进一步压缩变量。

代码语言：javascript代码运行次数：0运行复制```javascript import numpy as np import pandas as pd from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

LDA仅适用于分类问题

载入数据集

from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target

iris 数据集使用前需要被打乱顺序

np.random.seed(1234) idx = np.random.permutation(len(X)) X = X[idx] y = y[idx]

选择前100个观测点作为训练集

剩下的50个观测点测试集

train_set = X[0:100,:] test_set = X[100:,] train_y = y[0:100] test_y = y[100:,]

在使用主成分分析前，我们需要先对变量进行缩放操作

因为LDA假定数据服从正态分布

from sklearn.preprocessing import StandardScaler # 我们也可以采用幂次变换 model = StandardScaler() model.fit(train_set) standardized_train = model.transform(train_set) standardized_test = model.transform(test_set)

开始压缩特征

compressor = LDA(n_components=2) # 将n_components设置为2

n_components

<code>
代码语言：javascript代码运行次数：0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="http://www.w3.org/2000/svg"><path clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制```javascript
# 可视化 所解释的方差与选取的特征数目之间的关系
import matplotlib.pyplot as plt
plt.plot(np.array(range(len(compressor.explained_variance_ratio_))) + 1,
         np.cumsum(compressor.explained_variance_ratio_))
plt.xlabel('选取的特征数目')
plt.ylabel('累计所解释的方差累')
plt.show(); # LDA将原始的4个变量压缩为2个，这2个变量即能解释100%的方差</code>

【完结篇】专栏 | 基于 Jupyter 的特征工程手册：特征降维

中文版 Jupyter 地址：

https://www.php.cn/link/3aed873670ec4df5ec69019f310a2d19

Linux服务启动很慢_服务启动耗时分析

Linux脚本常见错误_Shell错误排查

Linux安全日志怎么看_安全日志分析

Linux多网卡路由异常_路由表分析与修复

Linux启动失败怎么排查_启动日志分析流程

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

Python 时间序列分析与预测

2025.12.04

Python 数据清洗与预处理实战

2026.01.31

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3581

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2825

2024.08.16

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04