解决LabelEncoder无法识别先前“见过”的标签问题

聖光之護

发布时间：2025-08-25 21:10:14

794人浏览过

来源于php中文网

原创

解决labelencoder无法识别先前“见过”的标签问题

本文旨在解决在使用 LabelEncoder 对数据进行编码时，遇到的“y contains previously unseen labels”错误。该错误通常出现在训练集和测试集（或验证集）中包含不同的类别标签时。本文将详细解释错误原因，并提供正确的编码方法，确保模型能够正确处理所有类别。

在使用 LabelEncoder 对类别数据进行编码时，经常会遇到一个常见的错误：“ValueError: y contains previously unseen labels”。这个错误通常发生在以下场景：你使用训练集拟合（fit）了 LabelEncoder，然后尝试使用该 LabelEncoder 转换（transform）包含训练集中未出现的类别标签的数据集（例如，测试集或验证集）。

错误原因分析

LabelEncoder 的工作原理是为每个唯一的类别标签分配一个唯一的整数。当你使用 fit 方法时，LabelEncoder 会学习训练集中所有唯一的类别标签，并建立一个从标签到整数的映射。当你使用 transform 方法时，LabelEncoder 会查找每个标签的对应整数。如果 transform 方法遇到了一个在 fit 阶段未见过的标签，它就无法找到对应的整数，从而抛出 "unseen labels" 错误。

错误代码示例

以下代码演示了导致此错误的常见做法：

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 假设 tr_df 是训练集 DataFrame，cv_df 是验证集 DataFrame
encodable_columns = ['Education', 'EmploymentType', 'MaritalStatus',
                     'HasMortgage', 'HasDependents', 'LoanPurpose', 'HasCoSigner']

le = LabelEncoder()

# 错误的做法：对 DataFrame 的每一列应用 fit_transform
encoded_df = cv_df[encodable_columns].apply(le.fit_transform)
cv_df.drop(columns=encodable_columns, axis=1, inplace=True)
cv_df = pd.concat([tr_df, encoded_df], axis=1) # 这行代码可能有误，请检查是否需要连接 tr_df 和 cv_df

encoded_df = tr_df[encodable_columns].apply(le.transform)
tr_df.drop(columns=encodable_columns, axis=1, inplace=True)
tr_df = pd.concat([tr_df, encoded_df], axis=1) # 这行代码可能有误，请检查是否需要连接 tr_df 和 cv_df

上述代码的错误在于，你尝试使用 apply 方法将 le.fit_transform 应用于 DataFrame 的每一列。这样做会导致 LabelEncoder 在每一列上单独进行 fit，而不是使用所有数据集中所有类别标签的全局视图。

AI智研社

AI智研社是一个专注于人工智能领域的综合性平台

下载

正确的解决方案

正确的做法是为每一列创建一个独立的 LabelEncoder 实例，并先使用训练集 fit 每个 LabelEncoder，然后再使用训练集 fit 好的 LabelEncoder 对训练集和验证集进行 transform。

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 假设 tr_df 是训练集 DataFrame，cv_df 是验证集 DataFrame
encodable_columns = ['Education', 'EmploymentType', 'MaritalStatus',
                     'HasMortgage', 'HasDependents', 'LoanPurpose', 'HasCoSigner']

# 创建一个字典来存储每个列的 LabelEncoder
label_encoders = {}

# 循环处理每一列
for col in encodable_columns:
    # 为当前列创建一个 LabelEncoder 实例
    label_encoders[col] = LabelEncoder()

    # 使用训练集拟合 LabelEncoder
    tr_df[col] = label_encoders[col].fit_transform(tr_df[col])

    # 使用训练集拟合好的 LabelEncoder 转换验证集
    cv_df[col] = label_encoders[col].transform(cv_df[col])


# 如果需要，可以删除原始的类别列
# tr_df.drop(columns=encodable_columns, axis=1, inplace=True)
# cv_df.drop(columns=encodable_columns, axis=1, inplace=True)

# 打印转换后的 DataFrame (可选)
print("Training Data:")
print(tr_df.head())
print("\nValidation Data:")
print(cv_df.head())

代码解释

创建 LabelEncoder 字典： label_encoders = {} 创建一个字典，用于存储每个列的 LabelEncoder 实例。
循环处理每一列： for col in encodable_columns: 循环遍历需要编码的每一列。
创建 LabelEncoder 实例： label_encoders[col] = LabelEncoder() 为当前列创建一个新的 LabelEncoder 实例，并将其存储在 label_encoders 字典中。
使用训练集 fit 和 transform： tr_df[col] = label_encoders[col].fit_transform(tr_df[col]) 首先使用训练集 fit LabelEncoder，然后使用相同的 LabelEncoder 转换训练集。
使用训练集 fit 好的 LabelEncoder 转换验证集： cv_df[col] = label_encoders[col].transform(cv_df[col]) 使用之前训练集 fit 好的 LabelEncoder 来转换验证集。 注意： 这里只使用 transform，而不再使用 fit。这是关键，确保验证集使用与训练集相同的编码规则。

注意事项

数据一致性： 确保训练集和测试集（或验证集）的类别标签在语义上是一致的。例如，如果训练集中 "High School" 被编码为 0，那么测试集中的 "High School" 也应该被编码为 0。
未知标签处理： 如果测试集中包含训练集中未出现的标签，LabelEncoder 仍然会抛出错误。在这种情况下，你需要考虑使用其他编码方法，例如 One-Hot Encoding，或者手动添加一个“未知”类别到训练集中，并将其编码为一个特定的整数。
其他编码方法： LabelEncoder 适用于类别标签之间没有内在顺序关系的情况。如果类别标签之间存在顺序关系（例如，"Low"、"Medium"、"High"），则应该使用 OrdinalEncoder。对于更复杂的情况，可以考虑使用 One-Hot Encoding。

总结

LabelEncoder 是一个方便的类别数据编码工具，但必须正确使用才能避免 "unseen labels" 错误。正确的做法是为每一列创建一个独立的 LabelEncoder 实例，并先使用训练集 fit 每个 LabelEncoder，然后再使用训练集 fit 好的 LabelEncoder 对训练集和验证集进行 transform。同时，需要注意数据一致性，并考虑如何处理未知标签。

Polars 中按前缀合并列并重复非模式列以对齐长格式

Polars 中按前缀合并列并重复非模式列的完整教程

Python argparse 与 click 的设计取舍

tcpdump 抓到大量 SACK / DSACK 但业务正常的重传优化参数

计算当月已过的交易日数量（不含周末和节假日）