0

0

有监督学习VS无监督学习「建议收藏」

雪夜

雪夜

发布时间:2025-07-22 09:56:22

|

1025人浏览过

|

来源于php中文网

原创

大家好,很高兴再次与大家见面,我是你们的朋友全栈君。

首先让我们明确一下:

标签指的是预先定义好的类别,指定标签就是告诉计算机某个样本属于哪一类。对于聚类来说,类别是未定义的,但必须告诉计算机类别的数量。

监督学习(supervised learning):通过已有的训练样本(即已知数据及其对应的输出)进行训练,从而获得一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,通过简单的判断实现分类的目的,使得模型能够对未知数据进行分类。在我们的日常生活中,从小我们就被大人教导这是鸟,那是猪,这是西瓜、南瓜,哪些可以吃,哪些不能吃。我们看到的这些景物和食物就是机器学习中的输入,大人们告诉我们的结果就是输出。久而久之,当我们见得多了,大人们说的多了,我们脑中就会形成一个抽象的模型。下次在没有大人提醒的情况下看到别墅或洋楼,我们也能辨别出这是房子,不能吃,房子本身也不能飞等信息。在学校,老师教我们认字、数学公式、英语单词等,当我们再次遇到这些内容时,也能区分并识别它们。这就是监督学习,它在我们的生活中无处不在。

无监督学习(unsupervised learning):我们事先没有任何训练数据样本,需要直接对数据进行建模。比如我们去参观一个画展,对艺术一无所知,但欣赏完很多幅作品后,面对一幅新的作品,至少可以知道这幅作品属于哪个派别,比如更抽象还是更写实。虽然不能完全理解这幅画的含义,但至少可以将其归类。再比如我们在电影院看电影,之前没有学过相关电影艺术知识,可能不知道什么是一部好电影,什么是一部坏电影,但在观看很多部电影后,我们对电影就有了一个潜在的认识。当我们再次认真观看新上映的电影时,脑中就会对这部电影产生评价:这电影怎么这么差啊,故事线混乱,一点也不清晰,比我之前看过的电影差远了,人物性格也没有表现出来,关键是电影主题还搞偏了;哎呀,这个电影拍得确实好啊,故事情节和人物性格都很鲜明,场景很逼真,主角的实力表演加上他与生俱来的忧郁眼神一下把人物演活了。

再给大家举一个无监督学习的例子。在远古时期,我们的祖先打猎吃肉,他们之前没有经验,当有人用很粗的石头去割动物的皮时,发现很难把皮隔开,但又有人用很薄的石头去割,发现比别人更容易隔开动物的毛皮,于是,第二天、第三天、……,他们就知道了需要寻找比较薄的石头片来割。这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。

这个问题可以简单回答:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没有标签则为无监督学习。

首先看什么是学习(learning)?一个成语就可概括:举一反三。以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多题目,懂得解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据的标签。

Short AI
Short AI

AI短视频生成器,轻松创作爆款短视频!

下载

在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning),也即聚类(clustering)。

目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些不尽如人意。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。

这时各位可能要问,既然分类如此之好,聚类如此之不靠谱,那为何我们还可以容忍聚类的存在?因为在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签……

有监督学习VS无监督学习「建议收藏」这时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good idea。灰是存在的。二者的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节)

因此,learning家族的整体构造是这样的: 有监督学习(分类,回归) ↕ 半监督学习(分类,回归),transductive learning(分类,回归) ↕ 半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy) ↕ 无监督学习(聚类)

参考文献: [1] 各种教材 [2] Semi-Supervised Learning Tutorial, https://www.php.cn/link/0555bb36e8cfb7af4aaad5472cab1c49

发布者:全栈程序员栈长,转载请注明出处:https://www.php.cn/link/03f68714dba796f8d6b268029d0e62c4

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

434

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

600

2023.08.10

idea快捷键大全
idea快捷键大全

本专题为大家提供idea快捷键相关的文章,帮助大家解决问题。

174

2023.08.03

idea如何集成Tomcat
idea如何集成Tomcat

idea集成Tomcat的步骤:1、添加Tomcat服务器配置;2、配置项目部署;3、运行Tomcat服务器;4、访问项目;5、注意事项;6、关闭Tomcat服务器。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

172

2024.02.23

idea怎么配置maven
idea怎么配置maven

idea配置maven的步骤:1、打开intellij idea,并确保已安装maven integration插件,可以在"file"菜单中选择"settings",然后在"plugins"选项卡中搜索并安装maven integration插件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

129

2024.02.23

eclipse和idea有什么区别
eclipse和idea有什么区别

eclipse和idea的区别:1、平台支持;2、内存占用;3、插件系统;4、智能代码提示;5、界面设计;6、调试功能;7、学习曲线。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

149

2024.02.23

webstorm和idea有什么区别
webstorm和idea有什么区别

webstorm专为web开发量身定制,提供针对web开发语言的强大功能,而intellij idea是支持多种语言的多功能ide。它们的差异主要在于语言支持、web开发特性、代码导航、调试和测试功能、附加特性。最终选择取决于语言偏好和项目需求。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

341

2024.04.09

idea配置运行go语言环境
idea配置运行go语言环境

本专题整合了idea配置go开发环境相关教程,阅读专题下的文章了解更多详细内容。

102

2025.09.05

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

4

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 12.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 6.6万人学习

Rust 教程
Rust 教程

共28课时 | 6.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号