那就开始今天的教程吧
1.本节课我们进行讲解ID3&C4.5决策树,信息熵增益率如图所示。
2.然后我们看一下过拟合问题,过度拟合跟定义如图所示。
3.接下来我们看一下产生过度拟合数据问题的原因有哪些?【样本问题】【构建决策树的方法问题】。
4.然后看一下如何解决过度拟合数据问题?首先看解决样本问题方法是合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树,解决构建决策树的方法问题的方法是剪枝:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。
5.前剪枝与后剪枝,剪枝是一个简化过拟合决策树的过程,有两种减值方法首先是先剪枝。