论文阅读：深度森林

论文主题：《Deep Forest》

论文地址：https://arxiv.org/pdf/1702.08835.pdf

深度森林是南大周志华老师前两年提出的一种基于随机森林的深度学习模型。

当前的深度学习模型大多基于深度学习神经网络（DNN），其中每一层都是可微的，在训练过程中通过反向传播调参。而本篇介绍的深度森林算法基于不可微的子模型，该算法把多个随机森林串联起来组成了深度学习模型。

作者认为深度模型的优越性主要在于：深度网络多层建构；模型特征变换；模型足够复杂。文中提出基于树模型的 gcForest 也可满足以上三点。相对于深度学习神经网络，它还有如下优势：使用较少的超参数；模型的复杂度可根据数据情况自动调整；使用模型的默认参数往往也能达到不错的学习效果。

DNN 的缺点

DNN 超参数太多，调参难度大，需要大量技巧
DNN 一般在大数据集上训练效果好，在中小数据集上表现较差，标注成本大
DNN 是难以解释的黑盒模型
DNN 需要事先设计网络结构，它的设计往往比实际需要的复杂度更高
在很多数据比赛中 GBDT 类模型效果往往更好

灵感

作者设计灵感主要来源于深度学习模型和集成模型。

深度学习模型利用层层堆叠方法提升效果，因为即使给浅层网络设置很多单元，效果也不如深层网络；另外，决策树及 GBDT 决策树算法虽然也是层层推进，但效果也不如 DNN 的原因可能是它不能逐层提取更多特征，也就是说不支持模型内部特征转换（feature transformation），且这些机器学习模型只有有限的复杂度。

集成模型中多模型集成比单模型有更好泛化效果。子模型需要兼顾准确性，多样性，互补性。比如森林中设置树模型多样性常常采用的方法有：数据采样方式不同，特征不同，模型参数不同，定义的输出不同等。

实现方法

森林堆叠

gcForest 方法集成了多个森林，具体构建方法如下：

此例解决的是一个多分类问题，从左向右运行。模型输入是左侧的 Input Feature Vector，最终输出为输入 x 属于三种类别的概率；模型深度为 N 层，每层包含两个完全随机树森林和两个随机森林；每一层的输入是前层的输出和基本特征（Input Feature Vector），输出为 12 个新特征（4 模型 x3 类别）并传向后一层；使用验证集评价模型效果，当模型不再变好时停止继续训练。