Adaboost

发表于 2018-05-21 |

《统计学习方法》导读

发表于 2018-05-21 | 分类于书籍 |

在阅读李航的《统计学习方法》，周志华的《机器学习》过程中，由于基础不扎实，有些地方理解不了，但是看了补充材料以后，发现对理解有很大帮助，因此在这里想挑选出难理解的点，并进行补充

第5章决策树

cost function

发表于 2018-05-21 | 分类于机器学习 |

cost function的形式

cost function的推导满足以下过程：

认为error 满足某个分布，写出样本点xi的样本的error
认为样本点是相互独立的，推导出其对数似然函数
求偏导，是得导函数为0，分离常数部分，得到误差的表达形式

e.g.
线性回归中关于MSE的推导：https://nk2000.github.io/2018/05/16/Linear-Regression/

常见的cost function

均值和中位数的意义

在这样的框架下，假设fx是一个常函数，即fx=c

假设cost function 符合高斯分布时：

样本的均值就是最好的模型

假设cost function 符合Laplace分布：

中位数就是最好的模型

因此当给定损失函数形式的情况下，一个常函数的模型总是可求的

参考：

邹博博士课件

XGBoost

发表于 2018-05-21 | 分类于机器学习 |

回顾

决策树的分类能力由叶子节点上的条件概率分布决定
决策树的内路径只决定了特征空间的划分情况，即给定一个样本xi，最终会落在哪个节点

思考：

提升的定义

提升的框架

思路：在构建好的k-1棵决策树的基础上，构建第k棵决策树

符号说明：

这里需要解释一下俩棵决策树的加权和的含义

权值a1,a2取值不同，首先决定了不同的特征空间的划分，统计后得到不同的条件概率，是一棵抽象的树结构

首先，给定常函数F0(x):

并且由之前关于cost function中的讨论，F0(X)总是可求的
以贪心的思路扩展得到Fm(x):

目标函数的计算

这里的所谓权值w就是P(Y|X)的条件分布

模型构建

AUC

发表于 2018-05-21 | 分类于机器学习 |

AUC定义

Note:

图像一定过（0，0），（1，1）
当阈值趋于正无穷时

TPR = 1; FPR = 1
图像一定是上凸的
equal error rate曲线所围成的面积越大，代表着模型越好
当预测越准确时，TPR，FPR都接近1，故面积大

AUC实例

阈值的取值不同，AUC的图像也不同，在此例中，0.1，0.3，0.5，0.8把数轴划分成了5个区域，每个区域中的AUC取值是相同的，不同的区域，AUC取值不同，分别对应着图中的五个点

之前的图是对应着4个样本点的情况，故有很明显的折线，当样本点个数增多时，AUC的效果会趋于上图

Note：
感觉还是没懂，待续…

参考

邹博博士课件

http://alexkong.net/2013/06/introduction-to-auc-and-roc/

不均衡样本处理

发表于 2018-05-21 | 分类于机器学习 |

决策树

发表于 2018-05-20 | 分类于机器学习 |

模型表示

决策树算法的本质是求出最优的特征空间的划分，在这个划分基础上的条件概率P(Y|X)的分布最优

因此还需完成俩步：

定义 cost function
根据cost function怎么构建决策树（因为决策树的结构决定了cost function）

代价函数

从模型表示可以直观地看出，叶子节点中Y的种类越少越好，意味着分错的数量越少

叶子的熵可以量化这一情况

决策树的构建

因此决策树学习的算法转变为了递归选择最优特征的一个过程

接下来给出如何选择，定义最优特征

特征的选择

根据不同的最优特征定义，分别有着不同的决策树学习算法

信息增益

确定度量量
学习算法的目标就是降低整棵树的信息熵，因此认为最优的特征A是，在确定A后，特征空间D的信息熵减少最多的那个特征
条件熵的公式推导
由此可知，条件熵恰好可以用来帮助选择特征，下面给出条件熵的公式推导，便于计算
信息增益的定义
信息增益的计算
符号定义

公式计算

信息增益比

参考：

邹博博士课件

《统计学习方法》——李航

Logistics Regression

发表于 2018-05-19 | 分类于机器学习 |

模型定义

特征 x：m*n
label y：m*1
不同的x，@对应一个不同的二项分布
这些二项分布可以通过统计求得

改进

不按照x是否相同，来统计其二项分布的分布律，而每一个样本点都看做一个独立二项分布

这样的特点就是这样的二项分布只有俩种，分别为

并且能合并表示为

目标函数——交叉熵

小目标：对于每一个样本点，分别求出一个分布，使得俩者分布差距最小

模型目标：所有的样本差距之和最小

KL散度

Kullback-Leibler Divergence，即K-L散度，是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。
参考链接：https://www.jianshu.com/p/43318a3dc715