特征工程是让模型真正理解数据的关键环节,涵盖数据清洗、业务特征构造、分类变量编码、数值缩放及特征选择等步骤,需结合领域知识与交叉验证持续优化。

特征工程不是“加一堆列就完事”,而是让模型真正看懂数据的关键环节。在Python AI模型训练中,它直接影响模型的收敛速度、泛化能力和最终效果。
理解原始数据并做基础清洗
先用 pandas.read_csv() 或类似方法加载数据,快速查看 .info()、.describe() 和 .isnull().sum(),确认缺失值、异常值、数据类型是否合理。比如日期字段被读成 object,类别字段混入空格或大小写不一致,数值列出现明显离群点(如年龄=999)。
常见操作包括:
- 用 .dropna() 或 .fillna() 处理缺失——分类变量常用众数填充,数值变量可考虑均值/中位数,或更优的 KNNImputer
- 用 .str.strip().str.lower() 统一文本格式
- 用 np.clip() 或 IQR 法截断极端异常值,避免干扰模型学习
构造有业务意义的特征
光靠原始字段往往不够。要结合领域知识生成新特征,比如电商订单数据中,可从下单时间提取“是否工作日”“是否促销季”“距最近节假日天数”;用户行为日志里,可统计“过去7天点击次数”“首次与末次行为时间差”。这类特征能显著提升模型对业务逻辑的理解力。
立即学习“Python免费学习笔记(深入)”;
建议边构造边验证:画分布图、计算与目标变量的相关性(df.corrwith(y)),剔除几乎无区分度的特征。
编码分类变量与缩放数值特征
模型(尤其是线性模型、树以外的算法如SVM、神经网络)无法直接处理字符串或量纲差异大的数值。需统一转换:
- 低基数类别(如省份、产品类目)用 OneHotEncoder(注意高维爆炸问题,可配合 ColumnTransformer 控制范围)
- 高基数或有序类别(如用户等级、评分)可用 TargetEncoder 或 CountEncoder
- 数值特征推荐用 StandardScaler(均值为0、方差为1),尤其对距离敏感的模型;树模型可跳过缩放,但标准化后便于后续特征重要性对比
特征选择与降维(非必须但很实用)
不是所有特征都有用,冗余或噪声特征反而拖累性能。可分三步走:
- 过滤法:用 VarianceThreshold 剔除方差过低的列;用 SelectKBest + 卡方/F检验挑出与标签相关性强的前K个
- 包裹法:用 RFE(递归特征消除)配合一个轻量模型(如 LogisticRegression)反复训练筛选
- 嵌入法:直接用 Lasso(L1正则)或树模型(RandomForest.feature_importances_)输出重要性排序
对超高维稀疏特征(如NLP文本TF-IDF),可考虑 TruncatedSVD 降维保留主要语义信息。
基本上就这些。特征工程没有银弹,核心是“多看数据、多试假设、少凭直觉”。每次改动都建议用交叉验证观察指标变化,而不是只盯着训练集准确率。不复杂但容易忽略。










