理想论坛_专业20年的财经股票炒股论坛交流社区 - 股票论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2595|回复: 0

机器学习算法概述第五章——CART算法

[复制链接]

9650

主题

9650

帖子

2万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
28966
发表于 2019-12-27 11:55 | 显示全部楼层 |阅读模式
特点:
  是一个二叉树,元素可以反复操纵,可以做回归也可以做分类,分类用最小二乘法,即误差平方和最小
切割方式:
  对于可量化的x来说:
  切割点凡是为两个x的均匀值
左右两部分别离取均值,再评判以哪个朋分点的误差平方和最小,即第一层根节点为此点
以此为法则,往下迭代,构建出回归树
  对于不成量化的x来说:
  x没法去均值。间接以特征属性割分,再盘算两个地域的均值,再根究误差平方和最小的切割点
举个栗子:





CART回归树的构建:







优点:
  易于表白
  处置惩罚种别特征,其他的技术凡是要求数据属性的单一
  延展到多分类
  不必要特征放缩
  能捕捉非线性关系和特征间的交互关系
弱点:
  根究最优的决议树是一 个NP-hard的题目,只能经过启发式方式求次优解
  决议树会由于样本发生- -点点的修改,就会致使树结构的剧烈改变
  假如某些离散特征的特征值品种多,天生决议树轻易偏向于这些特征ID3
  有些比力复杂的关系,决议树很难进修,比如异或
CART分类决议树算法:
  纯度:当样本点均来自同一种别时不纯度为0,当两个样本点属于不同种别时的不纯度为两个种此外几率相乘
  多种别时:
  来自于1种此外几率+来自于2种此外几率+来自于3种此外几率



  不纯度就是基尼系数,以基尼系数最小的一项为第一个切分点,基尼系数盘算以下









cart分类树也是一个二叉树












总结
KD-tree现在兵戈到的是无监视的
ID3、C4.5和CART算法均只适当在小范围数据集上操纵
ID3、 C4.5和CART算法都是单变量决议树
当属性值取值比力多的时候,最好考虑C4.5算法,ID3得出的结果会比力差
决议树分类- 般情况只适当小数据量的情况(数据可以放内存
CART算法是三种算法中最常用的一种决议树构建算法(sklearn中仅支持CART)。
三种算法的区分仅仅只是对于当前树的评价标准不同而已,ID3操纵信息增益、
C4.5操纵信息增益率、CART操纵基尼系数。 (不是严重区分)
CART算法构建的必定是二 叉树,ID3和C4.5构建的纷歧 定是二 叉树。(严重区分)



免责声明:假如加害了您的权益,请联系站长,我们会实时删除侵权内容,感谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|理想论坛_专业20年的财经股票炒股论坛交流社区 - 股票论坛

GMT+8, 2020-7-12 18:14 , Processed in 0.150236 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表