0

0

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

王林

王林

发布时间:2023-04-12 19:28:04

|

1178人浏览过

|

来源于51CTO.COM

转载

标签传播算法是一种半监督机器学习算法,它将标签分配给以前未标记的数据点。要在机器学习中使用这种算法,只有一小部分示例具有标签或分类。在算法的建模、拟合和预测过程中,这些标签被传播到未标记的数据点。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片


LabelPropagation

LabelPropagation是一种在图中查找社区的快速算法。它只使用网络结构作为指导来检测这些连接,不需要预定义的目标函数或关于群体的先验信息。标签传播通过在网络中传播标签并基于标签传播过程形成连接来实现。

接近的标签通常会被赋予相同的标签。单个标签可以在密集连接的节点组中占主导地位,但在稀疏连接的区域中会遇到麻烦。标签将被限制在一个紧密连接的节点组中,当算法完成时,那些最终具有相同标签的节点可以被视为同一连接的一部分。该算法使用了图论,具体如下:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

LabelPropagation算法以下列方式工作:-

  • 每个节点都使用唯一的标签进行初始化。
  • 这些标签通过网络传播。
  • 在每次传播迭代中,每个节点都会将其标签更新为最大邻居数所属的标签。
  • 当每个节点具有其邻居的多数标签时,标签传播算法达到收敛。
  • 如果达到收敛或用户定义的最大迭代次数,则标签传播算法停止。

为了演示LabelPropagation算法的工作原理,们使用 Pima Indians 的数据集,创建程序时,我导入了运行它所需的库

图片

复制一份数据并且将lable列作为训练目标

图片

使用matplotlib可视化:

图片

使用随机数生成器随机化数据集中70%的标签。然后随机标签被分配-1:-

sklearn 中的两个半监督标签传播算法 LabelPropagation和LabelSpreading

在对数据进行预处理之后,定义因变量和自变量,分别为y和X。y变量是最后一列,X变量是剩下的所有部分:-

图片

使用sklearn的LabelPropagation数来标记所有未标记的数据点:-

图片

准确率为发现它是76.9%。

图片

下面我们看看另外一个算法LabelSpreading。

LabelSpreading

LabelSpreading也是一种流行的半监督学习方法。创建一个连接训练数据集中样本的图,并通过图的边缘传播已知的标签来标记未标记的示例。

LabelSpreading是由 Dengyong Zhou 等人在他们 2003 年题为“Learning with Local and Global Consistency”的论文中提出的的。半监督学习的关键是一致性的先验假设,这意味着:附近的点可能具有相同的标签,并且同一结构上的点(通常称为簇流形)很可能具有相同的标签。

LabelSpreading可以认为是LabelPropagation的正则化形式。在图论中,拉普拉斯矩阵是图的矩阵表示,拉普拉斯矩阵的公式为:

图片

L是拉普拉斯矩阵,D是度矩阵,A是邻接矩阵。

如此AI员工
如此AI员工

国内首个全链路营销获客AI Agent

下载

下面是一个简单的无向图标记的例子和它拉普拉斯矩阵的结果

图片

本文将使用sonar数据集演示如何使用sklearn的LabelSpreading函数。

这里的库比上面的多,所以简单解释一下:

  • Numpy执行数值计算并创建Numpy数组
  • Pandas处理数据
  • Sklearn执行机器学习操作
  • Matplotlib和seaborn来可视化数据,为可视化数据提供统计信息
  • Warning,用于忽略程序执行期间出现的警告

导入完成后使用pandas将读入数据集:

图片

我使用seaborn创建了热图:-

图片

先做一个就简单的预处理,删除具有高度相关性的列,这样将列数从 61 减少到 58:

图片

然后对数据进行打乱重排,这样在打乱的数据集中预测通常更准确,复制一个数据集的副本,并将 y_orig 定义为训练目标:

图片

使用matplotlib来绘制数据点的2D散点图:-

图片

使用随机数生成器随机化数据集中60%的标签。然后随机标签被分配-1:-

图片

在对数据进行预处理之后,定义因变量和自变量,分别为y和X。y变量是最后一列,X变量是剩下的所有部分:-

图片

然后使用sklearn的LabelSpreading算法对未标记的行进行训练和预测。

使用这种方法,能够达到87.98%的准确率:-

图片

简单对比

1、labelspreading中含有alpha=0.2,alpha称为夹紧系数,指的是采用其邻居的信息而不是其初始标签的相对量,若为0,表示保留初始标签信息,若为1,表示替换所有初始信息;设置alpha=0.2,意味着始终保留80%的原始标签信息;

2、labelpropagation使用从数据中构造的原始相似矩阵,不做修改;labelspreading最小化具有正则化特性的损失函数,对噪声更加稳健,迭代了原始图的修改版,并通过计算归一化拉普拉斯矩阵来标准化边权重。

3、同时LabelSpreading非常占用CPU,物理内存占用率还好;LabelPropagation 的CPU占用率还好,非常占用物理内存,高纬度数据可能会有一些问题。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
bootstrap安装教程
bootstrap安装教程

本专题整合了bootstrap安装相关教程,阅读专题下面的文章了解更多详细操作教程。

3

2026.03.18

bootstrap框架介绍
bootstrap框架介绍

本专题整合了bootstrap框架相关介绍,阅读专题下面的文章了解更多详细内容。

4

2026.03.18

vscode 格式化
vscode 格式化

本专题整合了vscode格式化相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.03.18

vscode设置中文教程
vscode设置中文教程

本专题整合了vscode设置中文相关内容,阅读专题下面的文章了解更多详细教程。

0

2026.03.18

vscode更新教程合集
vscode更新教程合集

本专题整合了vscode更新相关内容,阅读专题下面的文章了解更多详细教程。

3

2026.03.18

Gemini网页版零基础入门:5分钟上手Gemini聊天指南
Gemini网页版零基础入门:5分钟上手Gemini聊天指南

本专题专为零基础用户打造,5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局,详解如何发起对话、优化提示词及利用多模态功能。通过实战案例,教你高效获取信息、创作内容与分析数据。无论学习还是工作,轻松开启AI辅助新时代,让Gemini成为你的得力智能助手。

9

2026.03.18

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

8

2026.03.18

Java Spring Security权限控制与认证机制实战
Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开,重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例,帮助开发者构建安全可靠的后端认证体系,提升系统安全性与可扩展能力。

26

2026.03.18

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

176

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号