0

0

如何正确分离特征与标签并重塑 NumPy 数组形状

聖光之護

聖光之護

发布时间:2026-01-20 20:26:31

|

757人浏览过

|

来源于php中文网

原创

如何正确分离特征与标签并重塑 NumPy 数组形状

本文详解如何从 pandas dataframe 中正确提取特征(x)和标签(y),避免因错误切片导致的维度错误(如“too many indices for array”),并确保 x_train 为 (100, 2)、y_train 为 (100, 1) 的合规形状,同时支持后续可视化与建模。

在机器学习数据预处理中,将原始表格数据正确拆分为特征矩阵 X_train 和标签向量 y_train 是关键一步。你当前的代码存在两个核心问题:

  1. 索引逻辑错误:data[0, [0,2]] 仅取第 0 行的第 0 和第 2 列,返回的是 shape 为 (2,) 的一维数组,而非全部 100 行;
  2. 维度不匹配:y_train 被错误赋值为与 X_train 相同的二维切片,导致后续布尔索引 y_train == 0 作用于二维数组时,无法直接用于索引二维 X_train(报错 “too many indices for array”)。

✅ 正确做法是使用 NumPy 切片语法,按行(所有行)和列(指定列范围)进行二维索引:

# 正确加载并分离数据(保持 NumPy 数组格式)
df = pd.read_excel('A3data.xlsx')
data = df[['Exam1', 'Exam2', 'Admission Decision']].to_numpy()  # shape: (100, 3)

# 提取前两列作为特征 X_train → shape (100, 2)
X_train = data[:, :2]  # 或 data[:, [0, 1]]

# 提取第三列(标签)并保持二维结构 → shape (100, 1)
y_train = data[:, 2:3]  # 关键:用切片 2:3 而非索引 [2],保留第二维

⚠️ 注意:data[:, 2] 返回 shape (100,) 的一维数组,而 data[:, 2:3] 返回 (100, 1) —— 后者才能与 X_train 兼容进行布尔索引。

完成上述操作后,可视化即可正常运行:

LongCat AI
LongCat AI

美团推出的AI对话问答工具

下载
# 安全的布尔索引(y_train 是 (100, 1),y_train == 0 生成 (100, 1) 布尔数组)
x_class0 = X_train[y_train.ravel() == 0]  # 推荐:ravel() 转为 1D 布尔索引更直观
x_class1 = X_train[y_train.ravel() == 1]

# 绘图
plt.scatter(x_class0[:, 0], x_class0[:, 1], color='blue', label='Not Admitted')
plt.scatter(x_class1[:, 0], x_class1[:, 1], color='red', label='Admitted')
plt.xlabel('Exam 1 Score')
plt.ylabel('Exam 2 Score')
plt.legend()
plt.show()

? 进阶建议

  • 若需保留列名语义与类型安全,推荐全程使用 Pandas(无需转 NumPy):
    X_train = df[['Exam1', 'Exam2']]    # DataFrame, shape (100, 2)
    y_train = df['Admission Decision']   # Series, shape (100,)

    此时 X_train[y_train == 0] 可直接工作(Pandas 自动对齐索引)。

  • 实际项目中,请务必在分离 X/y 之前执行 train_test_split,防止数据泄露。

总结:牢记 NumPy 切片中 : 表示“全部”,start:end 保持维度,避免用单索引破坏结构——这是规避维度错误最简单也最根本的原则。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

52

2025.12.04

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

46

2025.09.03

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

19

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 12.6万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号