有监督学习VS无监督学习「建议收藏」

雪夜

发布时间：2025-07-22 09:56:22

1025人浏览过

来源于php中文网

原创

大家好，很高兴再次与大家见面，我是你们的朋友全栈君。

首先让我们明确一下：

标签指的是预先定义好的类别，指定标签就是告诉计算机某个样本属于哪一类。对于聚类来说，类别是未定义的，但必须告诉计算机类别的数量。

监督学习（supervised learning）：通过已有的训练样本（即已知数据及其对应的输出）进行训练，从而获得一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，通过简单的判断实现分类的目的，使得模型能够对未知数据进行分类。在我们的日常生活中，从小我们就被大人教导这是鸟，那是猪，这是西瓜、南瓜，哪些可以吃，哪些不能吃。我们看到的这些景物和食物就是机器学习中的输入，大人们告诉我们的结果就是输出。久而久之，当我们见得多了，大人们说的多了，我们脑中就会形成一个抽象的模型。下次在没有大人提醒的情况下看到别墅或洋楼，我们也能辨别出这是房子，不能吃，房子本身也不能飞等信息。在学校，老师教我们认字、数学公式、英语单词等，当我们再次遇到这些内容时，也能区分并识别它们。这就是监督学习，它在我们的生活中无处不在。

无监督学习（unsupervised learning）：我们事先没有任何训练数据样本，需要直接对数据进行建模。比如我们去参观一个画展，对艺术一无所知，但欣赏完很多幅作品后，面对一幅新的作品，至少可以知道这幅作品属于哪个派别，比如更抽象还是更写实。虽然不能完全理解这幅画的含义，但至少可以将其归类。再比如我们在电影院看电影，之前没有学过相关电影艺术知识，可能不知道什么是一部好电影，什么是一部坏电影，但在观看很多部电影后，我们对电影就有了一个潜在的认识。当我们再次认真观看新上映的电影时，脑中就会对这部电影产生评价：这电影怎么这么差啊，故事线混乱，一点也不清晰，比我之前看过的电影差远了，人物性格也没有表现出来，关键是电影主题还搞偏了；哎呀，这个电影拍得确实好啊，故事情节和人物性格都很鲜明，场景很逼真，主角的实力表演加上他与生俱来的忧郁眼神一下把人物演活了。

再给大家举一个无监督学习的例子。在远古时期，我们的祖先打猎吃肉，他们之前没有经验，当有人用很粗的石头去割动物的皮时，发现很难把皮隔开，但又有人用很薄的石头去割，发现比别人更容易隔开动物的毛皮，于是，第二天、第三天、……，他们就知道了需要寻找比较薄的石头片来割。这些就是无监督学习的思想，外界没有经验和训练数据样本提供给它们，完全靠自己摸索。

这个问题可以简单回答：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没有标签则为无监督学习。

首先看什么是学习（learning）？一个成语就可概括：举一反三。以高考为例，高考的题目在上考场前我们未必做过，但在高中三年我们做过很多题目，懂得解题方法，因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似：我们能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（高考的题目）？

最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据的标签。

Short AI

AI短视频生成器，轻松创作爆款短视频！

下载

在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning），也即聚类（clustering）。

目前分类算法的效果还是不错的，但相对来讲，聚类算法就有些不尽如人意。确实，无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题，答案（标签）是非常重要的，假设两个完全相同的人进入高中，一个正常学习，另一人做的所有题目都没有答案，那么想必第一个人高考会发挥更好，第二个人会发疯。

这时各位可能要问，既然分类如此之好，聚类如此之不靠谱，那为何我们还可以容忍聚类的存在？因为在实际应用中，标签的获取常常需要极大的人工工作量，有时甚至非常困难。例如在自然语言处理（NLP）中，Penn Chinese Treebank在2年里只完成了4000句话的标签……

有监督学习VS无监督学习「建议收藏」这时有人可能会想，难道有监督学习和无监督学习就是非黑即白的关系吗？有没有灰呢？Good idea。灰是存在的。二者的中间带就是半监督学习（semi-supervised learning）。对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。（此处大量忽略细节）

因此，learning家族的整体构造是这样的：有监督学习（分类，回归） ↕ 半监督学习（分类，回归），transductive learning（分类，回归） ↕ 半监督聚类（有标签数据的标签不是确定的，类似于：肯定不是xxx，很可能是yyy） ↕ 无监督学习（聚类）

参考文献： [1] 各种教材 [2] Semi-Supervised Learning Tutorial, https://www.php.cn/link/0555bb36e8cfb7af4aaad5472cab1c49‎

发布者：全栈程序员栈长，转载请注明出处：https://www.php.cn/link/03f68714dba796f8d6b268029d0e62c4

Linux基础命令怎么快速掌握_常用命令高效学习路径【教程】

Linux常用命令如何掌握_常见误区解析避免新手踩坑【教程】

Linux脚本如何自动化_从基础到进阶全流程讲透【指导】

Linux服务占用端口异常_监听状态分析方法【教学】

Linux常用命令如何掌握_标准流程剖析适用于全部场景【教程】

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

434

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

600

2023.08.10

idea快捷键大全

本专题为大家提供idea快捷键相关的文章，帮助大家解决问题。

174

2023.08.03

idea如何集成Tomcat

idea集成Tomcat的步骤：1、添加Tomcat服务器配置；2、配置项目部署；3、运行Tomcat服务器；4、访问项目；5、注意事项；6、关闭Tomcat服务器。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

172

2024.02.23

idea怎么配置maven

idea配置maven的步骤：1、打开intellij idea，并确保已安装maven integration插件，可以在"file"菜单中选择"settings"，然后在"plugins"选项卡中搜索并安装maven integration插件等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

129

2024.02.23

eclipse和idea有什么区别

eclipse和idea的区别：1、平台支持；2、内存占用；3、插件系统；4、智能代码提示；5、界面设计；6、调试功能；7、学习曲线。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

149

2024.02.23

webstorm和idea有什么区别

webstorm专为web开发量身定制，提供针对web开发语言的强大功能，而intellij idea是支持多种语言的多功能ide。它们的差异主要在于语言支持、web开发特性、代码导航、调试和测试功能、附加特性。最终选择取决于语言偏好和项目需求。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

341

2024.04.09

idea配置运行go语言环境

本专题整合了idea配置go开发环境相关教程，阅读专题下的文章了解更多详细内容。

102

2025.09.05

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板