Keras二分类模型预测单一类别：深度诊断与解决方案

聖光之護

发布时间：2025-11-23 14:13:26

696人浏览过

来源于php中文网

原创

Keras二分类模型预测单一类别：深度诊断与解决方案

本文针对keras二分类模型始终预测同一类别的问题进行深入探讨。即便数据集平衡且模型结构合理，此类问题仍可能源于特征与目标变量间缺乏可学习的相关性。教程将通过分析数据预处理、模型构建代码，并提出以探索性数据分析（eda）为基础，结合简单模型验证特征有效性，以及精细化特征工程等策略，指导读者诊断并解决此类模型失效问题，强调理解数据本质先于复杂模型应用的重要性。

1. 问题描述与初步分析

在构建Keras二分类神经网络时，有时会遇到模型始终预测同一类别（通常是训练集中实例较多的类别）的困境，即使数据集的类别分布相对平衡。这种现象表明模型未能从数据中学习到有效的判别模式，其预测结果缺乏实际意义。

例如，在一次销售额预测任务中，目标是将销售额二值化为“高销售”（True）和“低销售”（False）。尽管训练数据中两类别的比例接近50/50，但训练后的模型在测试集上却表现出以下混淆矩阵：

	预测为正类	预测为负类
真实为正类	0 (TP)	21719 (FN)
真实为负类	0 (FP)	22620 (TN)

从混淆矩阵中可以看出，模型将所有样本都预测为负类。这意味着模型完全没有学习到如何识别正类样本，或者说它认为所有样本都更倾向于负类。这并非简单的过拟合或欠拟合，而是更深层次的“无信号”问题。

2. 核心代码回顾

为了更深入地理解问题，我们首先回顾模型构建的关键步骤，包括数据准备、数据集划分和神经网络结构。

2.1 数据准备

数据预处理阶段旨在将原始数据转换为模型可接受的数值格式，并对目标变量进行二值化。

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, Normalizer
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.initializers import he_normal

# 假设 purchase_data 已加载，并进行复制
data = purchase_data.copy()

# 将销售额二值化：高于 target_sum 为 True，否则为 False
target_sum = 120
data.loc[data['sales'] <= target_sum, 'sales'] = False
data.loc[data['sales'] > target_sum, 'sales'] = True

# 对类别型特征和布尔型特征进行 Label Encoding
labelencoder = LabelEncoder()
for col in data.columns.values.tolist():
    if data[col].dtype == "object" or data[col].dtype == "bool":
        data[col] = labelencoder.fit_transform(data[col])
    # else: 数值型特征无需额外处理，但可能需要归一化

# 将日期时间特征转换为浮点数（时间戳）
data['accessed_date'] = data['accessed_date'].apply(lambda x: x.timestamp())

# 分离特征 X 和目标变量 Y
array = data.values
class_column = 'sales' # 目标列
X = np.delete(array, data.columns.get_loc(class_column), axis=1) # 移除目标列
Y = array[:,data.columns.get_loc(class_column)] # 选取目标列
Y = Y[:, np.newaxis] # 调整 Y 的形状以适应 Keras 输入

# 对输入特征 X 进行归一化处理
scaler = Normalizer().fit(X)
X = scaler.transform(X)

说明:

目标变量二值化: sales 列根据 target_sum 被转换为布尔值，然后通过 LabelEncoder 进一步编码为0和1。
类别特征编码: 使用 LabelEncoder 将所有 object 和 bool 类型的列转换为数值。
时间戳转换: accessed_date 被转换为 Unix 时间戳，使其成为数值特征。
特征归一化: 使用 Normalizer 对特征 X 进行归一化，这有助于神经网络训练的稳定性和收敛速度。

2.2 数据集划分

数据集被划分为训练集和测试集，并使用了分层抽样以确保类别分布在训练集和测试集中保持一致。

seed = 1
X_train, X_test, Y_train, Y_test  = train_test_split(X, Y, test_size=0.33, random_state=seed, shuffle = True, stratify=(Y))

说明:

test_size=0.33: 33% 的数据用于测试。
random_state=seed: 保证每次运行结果的可复现性。
stratify=(Y): 关键一步，确保训练集和测试集中目标变量 Y 的类别比例与原始数据集相同，避免因抽样偏差导致的问题。

2.3 Keras 神经网络构建

模型采用多层感知机（MLP）结构，包含隐藏层和 Dropout 层用于正则化。

ModelGate

一站式AI模型管理与调用工具

下载

tf.random.set_seed(seed)

# 构建神经网络模型
modeldl = Sequential()
modeldl.add(Dense(64, input_dim=X.shape[1], activation='relu', kernel_initializer=he_normal()))
modeldl.add(Dropout(0.2)) # 添加 Dropout 层防止过拟合
modeldl.add(Dense(32, activation='relu', kernel_initializer=he_normal()))
modeldl.add(Dropout(0.2))
modeldl.add(Dense(1, activation='sigmoid', kernel_initializer=he_normal())) # 输出层使用 sigmoid 激活函数进行二分类

# 编译模型
optimizer = tf.keras.optimizers.Adam(learning_rate=1e-04) # 使用 Adam 优化器，并设置学习率
modeldl.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['acc']) # 损失函数为二元交叉熵，评估指标为准确率

# 模型训练（此处省略实际训练代码，仅展示结构）
# results = modeldl.fit(X_train, Y_train, epochs=80, batch_size=1000, verbose=1)

说明:

网络结构: 包含两个 Dense 隐藏层，分别有64和32个神经元，激活函数均为 relu。输出层为1个神经元，激活函数为 sigmoid，用于输出0到1之间的概率值。
权重初始化: 使用 he_normal 初始化器，适用于 relu 激活函数。
Dropout: 在隐藏层之间添加 Dropout 层，以随机丢弃神经元，减少模型对特定特征的依赖，从而降低过拟合风险。
优化器: 使用 Adam 优化器，学习率为 1e-04。
损失函数: binary_crossentropy 是二分类任务的标准损失函数。
评估指标: acc (准确率) 用于衡量模型性能。

从代码层面看，数据预处理、数据集划分和神经网络构建都遵循了常见的最佳实践，没有明显的语法或逻辑错误。然而，模型仍然无法学习，这提示我们问题可能不在于代码本身，而在于数据更深层次的特性。

3. 问题根源探究与解决方案

当神经网络模型在代码无误且数据集平衡的情况下，仍旧无法学习并总是预测同一类别时，最根本的原因往往是输入特征与目标变量之间缺乏可学习的强相关性。换句话说，模型无法从现有特征中找到任何有意义的模式来区分不同的类别。

针对这种情况，以下是推荐的诊断与解决策略：

3.1 策略一：深入探索性数据分析 (EDA)

在投入大量精力调整模型超参数之前，首先应该对数据进行彻底的探索性数据分析（EDA）。EDA是理解数据、发现模式、识别异常和评估特征与目标变量之间关系的基础。

目的: 找出哪些特征可能与目标变量（如“销售额是否高于120”）存在潜在的关联。
方法:
- 可视化分析:
  - 直方图/密度图: 观察各个数值特征的分布，看是否存在偏态或多峰现象。
  - 箱线图/小提琴图: 比较不同类别（高销售/低销售）下数值特征的分布差异。如果某个特征在两类间的分布有明显分离，则该特征可能具有预测能力。
  - 散点图矩阵/Pair Plot: 观察特征之间的两两关系以及特征与目标变量的关系。
  - 相关性矩阵/热力图: 计算所有数值特征（包括编码后的类别特征和目标变量）之间的皮尔逊相关系数，并用热力图可视化。寻找与目标变量相关性较高的特征。
- 统计分析:
  - 描述性统计: 计算均值、中位数、标准差等，了解数据的基本情况。
  - 假设检验: 对特定特征进行t检验、卡方检验等，量化其与目标变量之间的统计显著性。
案例参考: 针对电商日志数据，可以参考相关EDA报告（例如 Kaggle 上的 Ecommerce Logs EDA），学习如何从原始数据中发现有价值的信息。

如果EDA显示所有特征与目标变量之间几乎没有相关性，那么任何复杂的模型都难以学习。

3.2 策略二：从简单模型入手验证特征有效性

在尝试复杂的神经网络之前，先使用简单、可解释的机器学习模型（如逻辑回归、决策树、支持向量机等）来验证特征的有效性。

目的: 快速判断现有特征是否至少能被线性或简单的非线性模型所利用。
方法:
- 选择一个或几个在EDA中发现的“有潜力”的特征。
- 使用逻辑回归等简单模型进行训练和评估。
- 观察模型的性能。
  - 如果简单模型在这些特征上能够取得远高于随机猜测的性能（例如，准确率显著高于50%，或F1分数表现良好），则说明这些特征确实包含了一些预测信号，可以考虑在此基础上构建更复杂的模型或加入更多特征。
  - 如果简单模型仍然表现不佳，甚至也总是预测同一类别

Django 动态下拉选择：基于外键关联模型字段实时生成 choices

Python字符串怎么去空格_strip/lstrip/rstrip清理空白符

Python pytest怎么跑测试_命令行输入pytest参数详解(-v详细输出与-s显示print内容)

Python怎么读取内存文件_io.StringIO与BytesIO模拟文件

Python怎么合并多个TXT_循环读取各文件并写入一个总文件

相关专题

unix和linux的区别

unix和linux的区别包括发展历史、开源性、发行版本、内核、文件系统、应用程序兼容性和用户界面等。本专题为大家提供unix和linux相关的文章、下载、课程内容，供大家免费下载体验。

392

2023.09.22

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板