0

0

常用的回归算法及其特点在机器学习中的应用

WBOY

WBOY

发布时间:2023-11-29 17:29:26

|

1828人浏览过

|

来源于51CTO.COM

转载

回归是统计学中最有力的工具之一,机器学习监督学习算法分为分类算法和回归算法两种。回归算法用于连续型分布预测,可以预测连续型数据而不仅仅是离散的类别标签。

回归分析在机器学习领域得到广泛应用,例如预测商品销量、交通流量、房价以及天气情况等

回归算法是一种常用的机器学习算法,用于建立自变量X和因变量Y之间的关系。从机器学习的角度来看,它用于构建一个算法模型(函数),以实现属性X和标签Y之间的映射关系。在学习过程中,该算法试图找到最佳的参数关系,以使拟合程度最好

在回归算法中,算法(函数)的最终结果是一个连续的数据值。输入值(属性值)是一个d维度的属性/数值向量

fortran语言语法 WORD版
fortran语言语法 WORD版

本文档主要讲述的是fortran语言语法;FORTRAN是世界上最早出现的高级编程语言,是工程界最常用的编程语言,它在科学计算中(如航空航天、地质勘探、天气预报和建筑工程等领域)发挥着极其重要的作用。经过40多年的发展,伴随着FORTRAN语言多次版本的更新及相应开发系统的出现,其功能不断完善,最新版本的开发系统几乎具备了VC、VB的所有特点,如图形界面编程、数据库等。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

下载

一些常用的回归算法包括线性回归、多项式回归、决策树回归、Ridge回归、Lasso回归、ElasticNet回归等等

本文将介绍一些常见的回归算法,以及它们各自的特点

  • 线性回归
  • 多项式回归
  • 支持向量机回归
  • 决策树回归
  • 随机森林回归
  • LASSO 回归
  • Ridge 回归
  • ElasticNet 回归
  • XGBoost 回归
  • 局部加权线性回归

一、线性回归

线性回归通常是人们学习机器学习和数据科学的第一个算法。线性回归是一种线性模型,它假设输入变量 (X) 和单个输出变量 (y) 之间存在线性关系。一般来说,有两种情况:

单变量线性回归是一种建模方法,用于分析单个输入变量(即单个特征变量)与单个输出变量之间的关系

多变量线性回归(也称为多元线性回归):它对多个输入变量(多个特征变量)和单个输出变量之间的关系进行建模。

关于线性回归的几个关键点:

  • 快速且易于建模
  • 当要建模的关系不是非常复杂并且您没有大量数据时,它特别有用。
  • 非常直观的理解和解释。
  • 它对异常值非常敏感。

二、多项式回归

当我们想要为非线性可分数据创建模型时,多项式回归是最受欢迎的选择之一。它类似于线性回归,但使用变量 X 和 y 之间的关系来找到绘制适合数据点的曲线的最佳方法。

关于多项式回归的几个关键点:

  • 能够对非线性可分数据进行建模;线性回归不能做到这一点。一般来说,它更加灵活,可以对一些相当复杂的关系进行建模。
  • 完全控制特征变量的建模(要设置的指数)。
  • 需要精心设计。需要一些数据知识才能选择最佳指数。
  • 如果指数选择不当,则容易过度拟合。

三、支持向量机回归

支持向量机在分类问题中是众所周知的。SVM 在回归中的使用称为支持向量回归(SVR)。Scikit-learn在 SVR()中内置了这种方法。

关于支持向量回归的几个关键点:

  • 它对异常值具有鲁棒性,并且在高维空间中有效
  • 它具有出色的泛化能力(能够正确适应新的、以前看不见的数据)
  • 如果特征数量远大于样本数量,则容易过拟合

四、决策树回归

决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。一棵树可以看作是一个分段常数近似。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

常用的回归算法及其特点在机器学习中的应用

关于决策树的几个关键点:

  • 易于理解和解释。树可以可视化。
  • 适用于分类值和连续值
  • 使用 DT(即预测数据)的成本与用于训练树的数据点数量成对数
  • 决策树的预测既不平滑也不连续(如上图所示为分段常数近似)

五、随机森林回归

随机森林回归与决策树回归基本上非常相似。它是一种元估计器,可以在数据集的各个子样本上拟合多个决策树,并通过平均来提高预测准确性和控制过拟合

随机森林回归器在回归问题中的表现可能会优于决策树,也可能不如决策树(尽管在分类问题中通常更好),这是由于树构造算法本身存在微妙的过拟合和欠拟合的权衡

关于随机森林回归的几点:

  • 减少决策树中的过度拟合并提高准确性。
  • 它也适用于分类值和连续值。
  • 需要大量计算能力和资源,因为它适合许多决策树来组合它们的输出。

六、LASSO 回归

LASSO回归是一种变体的收缩线性回归。收缩是将数据值收缩到中心点作为平均值的过程。这种回归类型非常适用于具有严重多重共线性(特征之间高度相关)的模型

常用的回归算法及其特点在机器学习中的应用

关于 Lasso 回归的几点:

  • 它最常用于消除自动变量和选择特征。
  • 它非常适合显示重度多重共线性(特征相互之间高度相关)的模型。
  • LASSO 回归利用 L1 正则化
  • LASSO 回归被认为比 Ridge 更好,因为它只选择了一些特征并将其他特征的系数降低到零。

七、岭回归

岭回归(Ridge regression)和LASSO回归非常相似,因为这两种技术都采用了收缩方法。Ridge和LASSO回归都非常适用于具有严重多重共线性问题(即特征之间高度相关)的模型。它们之间的主要区别在于Ridge使用L2正则化,这意味着没有一个系数会像LASSO回归中那样变为零(而是接近零)

常用的回归算法及其特点在机器学习中的应用

关于岭回归的几点:

  • 它非常适合显示重度多重共线性(特征相互之间高度相关)的模型。
  • 岭回归使用 L2 正则化。贡献较小的特征将具有接近于零的系数。
  • 由于 L2 正则化的性质,岭回归被认为比 LASSO 更差。

八、ElasticNet 回归

ElasticNet 是另一个使用 L1 和 L2 正则化训练的线性回归模型。它是 Lasso 和 Ridge 回归技术的混合体,因此它也非常适合显示重度多重共线性(特征相互之间高度相关)的模型。

在权衡Lasso和Ridge之间时,一个实际的优势是Elastic-Net可以在旋转下继承Ridge的一些稳定性

九、XGBoost 回归

XGBoost 是梯度提升算法的一种高效且有效的实现。梯度提升是一类可用于分类或回归问题的集成机器学习算法

XGBoost是一个开源库,最初由陈天奇在他于2016年的论文《XGBoost: A Scalable Tree Boosting System》中开发。该算法的设计旨在具有高效和效率的计算能力

关于 XGBoost 的几点:

  • XGBoost 在稀疏和非结构化数据上表现不佳。
  • 该算法被设计为计算效率和高效,但是对于大型数据集的训练时间仍然相当长。
  • 它对异常值很敏感。

十、局部加权线性回归

在局部加权线性回归(Local Weights Linear Regression)中,我们也是在进行线性回归。然而,与普通线性回归不同的是,局部加权线性回归是一种局部线性回归方法。它通过引入权值(核函数),在进行预测时,只使用与测试点相近的部分样本来计算回归系数。普通线性回归则是全局线性回归,它使用全部的样本来计算回归系数

优缺点 & 适用场景

优点就是通过核函数加权来预防欠拟合,缺点也很明显K需要调试。当多元线性回归过拟合的时候,可以尝试高斯核局部加权来预防过拟合。

十一、贝叶斯岭回归

使用贝叶斯推断方法求解的线性回归模型被称为贝叶斯线性回归

贝叶斯线性回归是一种将线性模型的参数视为随机变量的方法,并通过先验计算后验。贝叶斯线性回归可以通过数值方法求解,在特定条件下也可以得到解析形式的后验或相关统计量

贝叶斯线性回归具有贝叶斯统计模型的基本性质,可以求解权重系数的概率密度函数,进行在线学习以及基于贝叶斯因子(Bayes factor)的模型假设检验

优缺点 & 适用场景

贝叶斯回归的优点在于其具有数据自适应能力,可以重复利用数据并防止过度拟合。在估计过程中,可以引入正则化项,例如在贝叶斯线性回归中引入L2正则化项,就可以实现贝叶斯岭回归

缺点就是学习过程开销太大。当特征数在10个以为,可以尝试贝叶斯回归。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

407

2023.08.14

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

165

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

34

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

73

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

4

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

8

2026.01.28

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

24

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

122

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.6万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

Rust 教程
Rust 教程

共28课时 | 5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号