0

0

机器学习中的集成方法概述

WBOY

WBOY

发布时间:2023-04-15 13:52:07

|

1129人浏览过

|

来源于51CTO.COM

转载

想象一下,你正在网上购物,你发现有两家店铺销售同一种商品,它们的评分相同。然而,第一家只有一个人评分,第二家有 100 人评分。您会更信任哪个评分呢?最终您会选择购买哪家的商品呢?大多数人的答案很简单。100 个人的意见肯定比只有一个人的意见更值得信赖。这被称为“群众的智慧”,这也是集成方法有效的原因。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

机器学习中的集成方法概述

集成方法

通常,我们只从训练数据中创建一个学习者(学习者=训练模型)(即,我们只在训练数据上训练一个机器学习模型)。而集成方法是让多个学习者解决同一个问题,然后将他们组合在一起。这些学习者被称为基础学习者,可以有任何底层算法,如神经网络,支持向量机,决策树等。如果所有这些基础学习者都由相同的算法组成那么它们被称为同质基础学习者,而如果它们由不同的算法组成那么它们被称为异质基础学习者。与单个基础学习者相比,集成具有更好的泛化能力,从而获得更好的结果。

当集成方法由弱学习者组成时。因此,基础学习者有时被称为弱学习者。而集成模型或强学习者(是这些弱学习者的组合)具有更低的偏差/方差,并获得更好的表现。这种集成方法将弱学习者转变为强学习者的能力之所以普及,是因为在实践中更容易获得弱学习者。

近年来,集成方法不断赢了各种在线比赛。除了在线比赛之外,集成方法也被应用于现实生活中,如目标检测、识别和跟踪等计算机视觉技术。

集成方法的主要类型

弱学习者是如何产生的?

根据基学习器的生成方式,集成方法可以分为两大类,即顺序集成方法和并行集成方法。顾名思义,在Sequential ensemble 方法中,基学习器是按顺序生成的,然后组合起来进行预测,例如AdaBoost等Boosting算法。而在Parallel ensemble 方法中,基础学习器是并行生成的,然后组合起来进行预测,例如随机森林和Stacking等Bagging算法算法。下图显示了解释并行和顺序方法的简单架构。

根据基础学习者的生成方式不同,集成方法可分为两大类:顺序集成方法和并行集成方法。顾名思义,在顺序集成方法中,基学习者是按顺序生成的,然后组合起来进行预测,例如AdaBoost等Boosting算法。在并行集成方法中,基学习者是并行生成的,然后组合在一起进行预测,例如随机森林和Stacking等Bagging算法。下图展示了一个简单的体系结构,解释了并行和顺序方法。

机器学习中的集成方法概述

并行与顺序集成方法

顺序学习方法利用弱学习者之间的依赖关系,以残差递减的方式提高整体性能,使后学习者更多地关注前学习者的错误。粗略地说(对于回归问题),boosting方法所得到的集成模型误差的减小主要是通过降低弱学习者的高偏差来实现的,尽管有时也会观察到方差的减小。另一方面,并行集成方法通过组合独立弱学习者来减小误差,即它利用了弱学习者之间的独立性。这种误差的减小是由于机器学习模型方差的减小。因此,我们可以归纳为,boosting主要通过减小机器学习模型的偏差来减小误差,而bagging通过减小机器学习模型的方差来减小误差。这是很重要的,因为选择哪种集成方法将取决于弱学习者是否有高方差或高偏差。

弱学习者如何组合?

在生成这些所谓的基础学习者之后,我们不会选择这些学习者中最好的,而是将它们组合在一起以实现更好的泛化,我们这样做的方式在集成方法中起着重要作用。

平均:当输出是数字时,最常见的组合基础学习者的方法是平均。平均可以是简单平均或加权平均。对于回归问题,简单平均将是所有基础模型的误差之和除以学习者总数。加权平均的组合输出是通过给每个基础学习者赋予不同的权重来实现的。对于回归问题,我们将每个基学习者的误差与给定的权重相乘,然后求和。

投票:对于名义输出,投票是组合基础学习器最常用的方式。投票可以是不同的类型,例如绝对多数投票、相对多数投票、加权投票和软投票。对于分类问题,绝对多数投票给每个学习者一票,他们投票给一个类标签。无论哪个类标签获得超过 50% 的选票,都是集成的预测结果。但是,如果没有一个类标签获得超过 50% 的选票,则会给出拒绝选项,这意味着组合集成无法做出任何预测。在相对多数投票中,获得最多票数的类标签是预测结果,超过50%的票数对类标签不是必需的。意思是,如果我们有三个输出标签,三个得到的结果都少于50%,比如40% 30% 30%,那么获得40%的类标签就是集合模型的预测结果。。加权投票,就像加权平均一样,根据分类器的重要性和特定学习器的强度为分类器分配权重。软投票用于概率(0到1之间的值)而不是标签(二进制或其他)的类输出。软投票进一步分为简单软投票(对概率进行简单平均)和加权软投票(将权重分配给学习者,概率乘以这些权重并相加)。

学习:另一种组合方法是通过学习进行组合,这是stacking集成方法使用的。在这种方法中,一个称为元学习者的单独学习者在新数据集上进行训练,以组合从原始机器学习数据集生成的其他基础/弱学习者。

微厦在线学习培训系统2.0
微厦在线学习培训系统2.0

《微厦在线学习考试系统》将“ 视频学习、试题练习、在线考试 ”紧密相联,打造成为集 “学、练、考” 于一体的在线学习系统。“点播/直播”、“刷题/测试”、“组卷/考试”,根据学习内容的不同权重汇总综合成绩,生成学习证明。支持在线支付(微信支付、支付宝支付);利用充值卡、学习卡配合线下营销;Web端、APP、小程序,多终端方便学习。适用:大学、中职中专、培训机构、企事业单位行业:企业内训、成人教育、

下载

请注意,无论是 boosting、bagging还是 stacking,所有这三种集成方法都可以使用同质或异质弱学习者生成。最常见的做法是使用同质弱学习者进行 Bagging 和 Boosting,使用异质弱学习器进行 Stacking。下图很好地分类了三种主要的集成方法。

机器学习中的集成方法概述

对集成方法的主要类型进行分类

集成多样性

集成多样性是指基础学习器之间的差异有多大,这对于生成良好的集成模型具有重要意义。理论上已经证明,通过不同的组合方法,完全独立(多样化)的基础学习者可以最大程度地减少错误,而完全(高度)相关的学习者不会带来任何改进。这在现实生活中却是一个具有挑战性的问题,因为我们正在训练所有弱学习者通过使用相同的数据集来解决相同的问题,从而导致高相关性。在此之上,我们需要确保弱学习者不是真正糟糕的模型,因为这甚至可能导致集成性能恶化。另一方面,将强而准确的基础学习者组合起来,也可能没有将一些弱学习者和一些强学习者组合起来的效果好。因此,需要在基础学习器的准确程度与基础学习器之间的差异之间取得平衡。

如何实现集成多样性?

1. 数据处理

我们可以将我们的数据集划分为子集供基础学习者使用。如果机器学习数据集很大,我们可以简单地将数据集分成相等的部分,然后输入到机器学习模型中。如果数据集很小,我们可以使用随机抽样替换,从原始数据集生成新的数据集。Bagging方法使用bootstrapping技术来生成新的数据集,它基本上是带替换的随机抽样。通过bootstrapping,我们能够创造一些随机性,因为所有生成的数据集都必须拥有一些不同的值。然而,请注意,大多数值(根据理论约为67%)仍然会重复,因此数据集不会完全独立。

2.输入特征

所有数据集都包含提供有关数据信息的特征。我们可以创建特征子集并生成不同的数据集并将其输入模型,而不是使用一个模型中的所有特征。这种方法被随机森林技术采用,当数据中存在大量冗余特征时有效。当数据集中的特征很少时,有效性会降低。

3.学习参数

该技术通过对基础学习算法应用不同的参数设置,即超参数调优,在基础学习者中产生随机性。例如,通过改变正则化项,可以将不同的初始权重分配给各个神经网络。

集成剪枝

最后,集成剪枝技术在某些情况下有助于获得更好的集成性能。集成剪枝(Ensemble Pruning)的意思是,我们只组合学习者的子集,而不是组合所有弱学习者。除此之外,更小的集成可以节省存储和计算资源,从而提高效率。

最后

本文仅仅是机器学习集成方法概述。希望大家能够更加深入的进行研究,更重要的是能购将研究应用于现实生活中。


热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

138

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

7

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

122

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.9万人学习

Git 教程
Git 教程

共21课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号