
本文详解因 pd.get_dummies() 独立作用于训练集和测试集导致的特征维度不一致错误,并提供基于 OneHotEncoder 的标准化、可复现的解决方案。
本文详解因 `pd.get_dummies()` 独立作用于训练集和测试集导致的特征维度不一致错误,并提供基于 `onehotencoder` 的标准化、可复现的解决方案。
在机器学习建模流程中,一个高频却易被忽视的报错是:
ValueError: The feature names should match those that were passed during fit. Feature names seen at fit time, yet now missing:
该错误本质并非数据缺失或标签错误,而是特征空间不一致——模型在训练时“见过”的特征列,在预测/评估时突然“消失”或“新增”,导致 score()、predict() 等方法无法对齐输入结构。
问题根源在于您代码中的这一段:
x_train = pd.get_dummies(x_train) x_test = pd.get_dummies(x_test)
pd.get_dummies() 是无状态的独立编码器:它仅根据当前 DataFrame 中出现的类别生成独热列。若某分类变量(如 Neighborhood="GreenHill")在 x_test 中存在、但在 x_train 中未出现,则 x_test 会多出一列 "Neighborhood_GreenHill";反之,若某类别仅在训练集中出现,测试集对应列将完全缺失。最终 x_train 和 x_test 的列名、数量、顺序均不一致,model.score(x_test, y_test) 必然失败。
✅ 正确做法:使用 有状态的、可复用的编码器 —— sklearn.preprocessing.OneHotEncoder,严格遵循「先拟合(fit)训练集,再变换(transform)测试集」的范式:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
# 步骤1:识别需编码的分类列(非数值型)
categorical_cols = x_train.select_dtypes(include=['object']).columns.tolist()
# 步骤2:构建预处理器(自动处理缺失值 + 一致编码)
preprocessor = ColumnTransformer(
transformers=[
('cat', OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore'),
categorical_cols)
],
remainder='passthrough', # 数值列保持原样
verbose_feature_names_out=False
)
# 步骤3:集成到Pipeline中(推荐!避免手动fit/transform遗漏)
model_pipeline = Pipeline([
('preprocessor', preprocessor),
('classifier', KNeighborsClassifier()) # 或其他模型
])
# ✅ 安全训练与评估
model_pipeline.fit(x_train, y_train)
score = model_pipeline.score(x_test, y_test) # 不再报错!
print(f"Test Score: {score:.4f}")⚠️ 关键注意事项:
- 永远不要对 y_train / y_test 使用 get_dummies:SalePrice 是回归目标(连续数值),不是分类标签,pd.get_dummies(y_train) 会将其错误转为稀疏矩阵,彻底破坏任务类型;
- handle_unknown='ignore' 是必备参数:当测试集出现训练时未见的新类别(如新楼盘类型),编码器将忽略该列而非报错;
- drop='first' 可防止多重共线性(尤其对线性模型重要);
- 使用 Pipeline 不仅解决一致性问题,更保障了生产环境部署时预处理逻辑的完整复现。
? 总结:特征工程必须具备确定性与可迁移性。pd.get_dummies() 适合探索性分析,而正式建模务必采用 sklearn 提供的、支持 fit/transform 分离的转换器。这不仅是修复报错的技巧,更是构建鲁棒、可维护ML工作流的基础实践。










