0

0

如何通过已训练的 OneHotEncoder 快速查询类别编码值

霞舞

霞舞

发布时间:2026-02-14 14:47:12

|

611人浏览过

|

来源于php中文网

原创

如何通过已训练的 OneHotEncoder 快速查询类别编码值

本文介绍如何利用 scikit-learn 中已拟合(fit)的 columntransformer 和 onehotencoder,精准获取任意类别字符串(如 'blue')对应的 one-hot 编码向量,避免重复训练或手动映射。

本文介绍如何利用 scikit-learn 中已拟合(fit)的 columntransformer 和 onehotencoder,精准获取任意类别字符串(如 'blue')对应的 one-hot 编码向量,避免重复训练或手动映射。

在使用 ColumnTransformer 配合 OneHotEncoder 对分类列进行编码后,常需对新样本中的单个类别值(如 'blue')快速查得其对应的 one-hot 向量(如 [1.0, 0.0, 0.0])。此时不能直接调用 ct.transform([['blue']]),因为 ColumnTransformer 要求输入数据结构与训练时完全一致(即必须包含全部 3 列),否则会报错 “X has 1 features, but expecting 3 features”。

正确做法是:从已训练的 ColumnTransformer 中提取底层已拟合的 OneHotEncoder 实例,再对其单独调用 transform() 方法

✅ 步骤详解

  1. 获取已拟合的编码器
    使用 ct.named_transformers_['cat'](按名称)或 ct.named_transformers_[0](按索引)提取对应 OneHotEncoder 实例:

    fitted_encoder = ct.named_transformers_['cat']
  2. 确认类别顺序与特征名
    fitted_encoder.categories_[0] 返回训练时识别出的类别数组(按字母序或出现序);fitted_encoder.get_feature_names_out() 给出输出列名,明确编码维度含义:

    print("Categories:", fitted_encoder.categories_[0])  # ['blue' 'green' 'red']
    print("Feature names:", fitted_encoder.get_feature_names_out())  # ['x0_blue' 'x0_green' 'x0_red']
  3. 对单个类别执行编码
    注意:OneHotEncoder.transform() 接受二维输入(即形状为 (n_samples, n_features))。因此需将单个字符串包装为 [['blue']](1 行 1 列):

    encoded_blue = fitted_encoder.transform([['blue']])
    print(encoded_blue)  # [[1. 0. 0.]]

    同理可查其他值:

    道影AI
    道影AI

    专业的AI短剧生成解决方案,从资产创建到视频生成,一站式智能化内容生产。

    下载
    print(fitted_encoder.transform([['red']]))   # [[0. 0. 1.]]
    print(fitted_encoder.transform([['green']])) # [[0. 1. 0.]]

⚠️ 关键注意事项

  • 必须使用 sparse_output=False(推荐):默认 OneHotEncoder 输出稀疏矩阵,若未显式设置,transform() 返回 scipy.sparse.matrix,需 .toarray() 才能获得 NumPy 数组。建议初始化时指定:

    OneHotEncoder(sparse_output=False)  # sklearn ≥ 1.2
    # 或旧版本用:OneHotEncoder(sparse=False)
  • 输入格式严格为二维:[['blue']] ✅,['blue'] ❌,'blue' ❌。

  • 仅适用于已 fit() 的编码器:未训练的编码器无法提供 categories_ 或执行 transform()。

? 完整可运行示例

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 原始数据(注意:dtype 为 object,因含字符串)
data = np.array([[1, 'red', 14], 
                 [4, 'blue', 54], 
                 [2, 'green', 241], 
                 [7, 'blue', 25]], dtype=object)

# 构建 ColumnTransformer(对第1列做 one-hot)
ct = ColumnTransformer(
    transformers=[('cat', OneHotEncoder(sparse_output=False), [1])],
    remainder='passthrough',
    verbose_feature_names_out=False  # 可选:避免 get_feature_names_out() 加前缀
)

# 拟合并转换
transformed = ct.fit_transform(data)
print("Transformed data:\n", transformed)

# 提取已拟合的 OneHotEncoder
encoder = ct.named_transformers_['cat']

# 查询任意类别
for color in ['blue', 'red', 'green']:
    vec = encoder.transform([[color]])
    print(f"'{color}' → {vec.flatten()}")

# 输出特征名(便于调试)
print("Output features:", encoder.get_feature_names_out())

? 小结:无需重建编码器或维护额外字典——named_transformers_ + transform([['value']]) 是 scikit-learn 中最规范、最可靠的类别编码查询方式。掌握此模式,可高效支撑预测服务、特征解释及 pipeline 调试等实际场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

531

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

214

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1552

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

640

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

885

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

835

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

185

2025.07.29

c++字符串相关教程
c++字符串相关教程

本专题整合了c++字符串相关教程,阅读专题下面的文章了解更多详细内容。

89

2025.08.07

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

23

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Rust 教程
Rust 教程

共28课时 | 5.8万人学习

Git 教程
Git 教程

共21课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号