python机器学习决策树详细介绍

高洛峰

发布时间：2017-03-19 14:20:14

2223人浏览过

来源于php中文网

原创

决策树（Decision Trees ，DTs）是一种无监督的学习方法，用于分类和回归。

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型　　source code下载　　https://www.manning.com/books/machine-learning-in-action

运行demo　　　　

关键算法

if so return 类标签;

else

　　寻找划分数据集的最好特征
　　划分数据集
　　创建分支节点
　　for 每个分支节点
　　　　调用函数createBranch并增加返回结果到分支节点中
return 分支节点

对应代码

def createTree(dataSet,labels):
　　class List = [example[-1] for example in dataSet] 不是dataset[-1] ｛dataset倒数第一元素｝，而这时里，dataset每一个元素里的倒数第一元素
　　if classList.count(classList[0]) == len(classList): 如果返回分类List count类型一样，则返回该类型！在子节点是否可分类如是一类型返回否则递归往下分类
　　　　return classList[0]#stop splitting when all of the classes are equal
　　if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet 如果只有一个元素
　　　　return majorityCnt(classList)
　　bestFeat = chooseBestFeatureToSplit(dataSet) 　　　　选择最好的特征索引
　　bestFeatLabel = labels[bestFeat] 　　　　而得到这个label flippers 还是 no surfaces 呢
　　myTree = {bestFeatLabel:{}} 　　　　然后创建该最好的分类的子树
　　del(labels[bestFeat]) 　　删除了该最好分类
　　featValues = [example[bestFeat] for example in dataSet]
　　uniqueVals = set(featValues) 　　　　set是归类，看只有多少种类
　　for value in uniqueVals:
　　　　subLabels = labels[:] #copy all of labels, so trees don't mess up existing labels
　　　　myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
　　return myTree

在划分数据集之前之后信息发生的变化称为信息增益，划分数据集的最大原则是将无序的数据变得更加有序。这里理解成切饼原理：

python机器学习决策树详细介绍

把信息的复杂度，信息量用单位熵描述程度。对应的是饼的密度，如果是均等密度的垂直切饼，

每部分重量g = 总G * 其占大圆比例！类比地，如果划分后信息熵一样，每个小部分数据的小h = pro * 总 H, 而求和 h[i] = H.

然而：我们需要的恰恰相反：需要的不是信息熵一样，而是不均等，比如上面，上绿的可能是草每馅，黄色是苹果馅，蓝色是紫薯，每个密度不同！

我们需要把它正确划分！分类出来，找出逼近不同馅之间的那条线。这里的小h会最小化，而最终在面积不变下，总H会逼近最小值，是最优化问题求解。

调试过程
calcShannonEnt : [[1, 'no'], [1, 'no']] = 0 log(1,2) * 0.4 = 0 为什么是0，因为pro必然是1
log(prob,2) log(1,2) = 0;2^0=1,因为 prob : [[1, 'yes'], [1, 'yes'], [0, 'no']] = 0.91 >> * 0.6 = 0.55
25行 for featVec in dataSet: 计频 for prop
chooseBestFeatureToSplit()　　
0.9709505944546686 = calcShannonEnt(dataSet) : [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

立即学习“Python免费学习笔记（深入）”；

#检测数据集的每个子项是否属于同一类：如果值都是a，而result都是y或n 则为一类所以，只是两个参数输入
0.5509775004326937 = += prob * calcShannonEnt(subDataSet) 分开的子集后，的概率*香农滴，得到的和，原来的整体的香浓滴比

# 数据越接近，香浓熵值越少，越接近0 ，越不同，越多分逻辑，香浓熵就越大
# 只计算 其dataSet的featVec[-1] 结果标签
def calcShannonEnt(dataSet):

0.4199730940219749 infoGain = baseEntropy - newEntropy

总结：　　

　　一开始，看代码看不懂，不明白到底是要做什么！分类，我们的目标是把一堆数据分类，以label来标签上。
像k邻近 classify([0, 0], group, labels, 3) 意思是，把新数据[0,0] 按k=3的邻近算法在 group,labels数据里的分类！ group与label对应！

码上飞

码上飞（CodeFlying）是一款AI自动化开发平台，通过自然语言描述即可自动生成完整应用程序。

下载

后面看到了

　　　　　　　　 python机器学习决策树详细介绍

才理解，数据dataSet 的意思是条个维度的值而最后一个是是否为 fish的，结果标签

所以，是要把每个维度切出来 + 结果标签成二维的一列数组，去比较分类
测试应该是，把前n个维量的值，向量输入，输出是yes or no!
一开始看，比较头晕，条理清楚，理顺下思路，看代码才易懂！
理解了目标和初始数据，你才明白，原来classList是结果标签！，是对应将要分类的dataset的对应结果标签
而labels 则是特征名，对应开始的dataset的维度，特征的名strname
bestFeatLabel 最好分类特征的维度名是第一维度还是第二，第N
featValues 是bestFeatLabel 的维度下，的值数组。就是这一维度下的组用来做新的分类比较。
uniqueVals 用set判断来是否一类，
比如
　　dataSet = [[1, 1, 'yes'],[0, 1, 'yes'],[1, 0, 'no'],[1, 0, 'no'],[0, 0, 'no']]
　　labels = ['no surfacing','flippers',]
这样的createTree :{'flippers': {0: 'no', 1: 'yes'}} 直接把no surfacing的维度省略了

最后，再用一段话来讲讲决策树：

　　决策树本质上：是加快效率！用‘最大最优’划分第一个否定标签，而肯定标签要继续划分！而否定，直接返回叶结点答案！而对应的其它维度就不继续判断！

理论上，即使不用决策树算法，就盲目穷举，就是每次都把数据所有维度轮一次！而有最后个标签答案！维度数*数据个数！为复杂度！这是对记忆的匹配回答！合适专家系统！预测未出现的情况能力差！但数据量大，速度快，也能有智能的感觉！因为是对过去经验的重演！然而它是死的？不，它不是死的！穷举是死的，但决策树是动态的！学习的！变化树！至少它的建成是动态的！当数据不完全时，它也可能是不完全的！当一个判断可以解决就用一个判断，不能就再需要一个！维度增加！

如何正确遍历嵌套 JSON 中的字典对象并提取 objectiveHash 值

Python 实时解析 Eufy H.264 视频流的正确方法

Python 切片操作的复杂度与优化

Python 策略模式在业务逻辑中的应用

如何在不将CSV文件全部加载到内存的情况下高效计算用户年龄中位数

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：关于python3学习基础知识总结下一篇：10个值得拥有的CSS3动效库（工具）分享

作者最新文章

实现一个 Java 版的 Redis

2018-05-30 13:56

Asp.net使用SignalR实现发送图片

2018-05-28 16:22

HTML5:使用Canvas实时处理Video

2018-05-28 17:58

最简单的微信小程序Demo

2018-05-30 10:20

Python构造自定义方法来美化字典结构输出

2018-05-29 10:33

html设置加粗、倾斜、下划线、删除线等字体效果示例介绍

2018-05-31 09:48

微信小程序：如何实现tabs选项卡效果示例

2018-05-29 15:01

微信小程序开发教程-App()和Page()函数概述

2018-05-28 16:19

python中pandas.DataFrame（创建、索引、增添与删除）的简单操作方法介绍

2018-05-29 15:23

详解python redis使用方法

2018-05-28 15:01

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总，涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

178

2026.01.28

包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口，涵盖备用域名、正版无广告链接及多端适配地址，助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

2026.01.28

ao3中文版官网地址大全

AO3最新中文版官网入口合集，汇总2026年主站及国内优化镜像链接，支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

2026.01.28

php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程，助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2026.01.28

php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

2026.01.28

Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用，涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理，以及在高并发系统中的异步解耦设计。通过实战案例，帮助学习者掌握使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

2026.01.28

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27