周志华团队，深度森林挑战多标签学习，9大数据集超越传统方法

2019-11-20 02:54

驭波者2019-11-20 02:54
2017年，南京大学机器学习与数据挖掘研究所（简称LAMDA 团队）的周志华教授与他的团队，提出了“深度森林”(Deep forest)：一种基于树的方法，拓展了深度学习的体系。
在设置可类比的情况下，新方法 gcForest 取得了和深度神经网络相当甚至更好的结果，而且更容易训练，小数据也能运行，更重要的是相比神经网络，基于树的方法不会存在那么困难的理论分析问题。

周志华和冯霁在论文里写道，“我们认为，要解决复杂的问题，学习模型也需要往深了去。然而，当前的深度模型全部都是神经网络。这篇论文展示了如何构建深度森林（deep forest），为在许多任务中使用深度神经网络之外的方法打开了一扇门”。
最近，周志华教授团队再次拓展了深度森林的应用范围，将深度森林方法用于多标签学习(multi-label learning)。
在多标签学习中，每个实例都与多个标签相关联，而关键的任务是如何在构建模型中利用标签相关性(label correlation)。
深度神经网络方法通常将特征信息和标签信息一起嵌入到一个潜在空间中，以利用标签的相关性。然而，这些方法的成功在很大程度上取决于对模型深度的精确选择。
深度森林是一种基于树模型集成的深度学习框架，它不依赖于反向传播。周志华团队认为，深度森林模型的优点非常适合解决多标签问题。
因此，他们使用两种机制设计了多标签深度森林方法(Multi-Label Deep Forest MLDF)：度量感知特性重用(measure-aware feature reuse)和度量感知层增长(measure-aware layer growth)。
MLDF同时处理两个具有挑战性的问题：一个是限制模型的复杂性以缓解过拟合问题；另一个是根据用户需求优化性能指标，因为在多标签评估任务中有许多不同的指标。
实验结果表明，MLDF方法不仅在基准数据集上优于其他6种作为比较的方法，而且在多标记学习中具有标记相关性发现等特性。
周志华团队首次将深度森林用于多标签学习

在多标签学习中，每个实例都同时与多个标签相关联，多标签学习的任务是为未见过的实例预测一组相关标签。多标签学习被广泛应用于文本分类、场景分类、功能基因组学、视频分类、化学品分类等多种问题。多标签学习任务在现实问题中无所不在，吸引了越来越多的研究关注。
通过将多标签学习问题转化为每个标签独立的二元分类问题，即Binary Relevance 算法[Tsoumakas and Katakis, 2007]是一种简单的方法，已在实践中得到广泛应用。虽然它的目标是充分利用传统的高性能单标签分类器，但是当标签空间较大时，会导致较高的计算成本。此外，这种方法忽略了一个标签上的信息可能有助于学习其他相关标签的事实，从而限制了预测性能。研究标签之间的相关性已被证明是提高多标签学习性能的关键。因此，越来越多的多标签学习方法旨在探索和利用标签的相关性。在多标签学习方法中，标签相关性的探索和利用受到了相当多的关注。
与传统的多标签方法不同，深度神经网络模型通常尝试学习一个新的特征空间，并在顶部使用一个多标签分类器。最早利用网络架构的是BP-MLL [Zhang and Zhou, 2006]，它不仅将每个输出节点视为一个二元分类任务，还利用了依赖于该架构本身的标签相关性。随后，在BP-MLL的基础上， [Nam et al., 2014]提出一种比较简单的神经网络方法，用熵损失代替 pairwise ranking损失，利用深度神经网络技术，在大规模文本分类中取得了良好的效果。然而，深度神经模型通常需要大量的训练数据，因此通常不适合小规模的数据集。
南京大学周志华教授和冯霁认识到深度学习的本质在于逐层处理、模型内特征转换和足够的模型复杂度，提出深度森林(Deep forest)[Zhou and Feng, 2018]。
深度森林是建立在决策树之上的集成深度模型，在训练过程中不使用反向传播。具有级联结构的深度森林集成系统能够像深度神经模型一样进行表示学习。深度森林更容易训练，因为它的超参数更少。深度森林已经在大规模金融欺诈检测、图像、文本重构等许多任务中取得了优异的性能。虽然深度森林在传统的分类任务中已经被证明有用，但是在本工作之前，尚没有人注意到将其应用于多标签学习的潜力。
深度森林的成功主要来自于以集成方式进行的逐层特征转换。而另一方面，多标签学习的关键是如何利用标签相关性。受这两个事实的启发，我们提出了多标签深度森林(MLDF)方法。
简而言之，MLDF使用不同的多标签树方法作为深度森林的构建块，并通过逐层表示学习来利用标签相关性。
由于多标签学习中的评估比传统的分类任务更复杂，因此有多种性能度量方法[Schapire and Singer, 2000]。值得注意的是，不同的用户有不同的需求，不同的算法在不同的度量上的表现也不同。
为了在特定度量上获得更好的性能，我们提出了两种机制：度量感知特性重用(measure-aware feature reuse)和度量感知层增长(measure-aware layer growth)。
受置信度筛选启发的度量感知特征重用机制重用了前一层中的良好表示。度量感知层增长机制则旨在通过各种性能度量来控制模型的复杂性。
本文的主要贡献总结如下：
- 我们首次将深度森林引入到多标签学习中。由于提出了级联结构和两种measure-aware的机制，我们的MLDF方法可以处理两个具有挑战性的问题：根据用户需求优化不同的性能指标，以及在利用大量层的特征相关性时减少过拟合，过拟合常常在深度神经多标签模型中发生。
- 我们的大量实验表明，MLDF在9个基准数据集上都实现了最佳的性能，优于其他6种多标签方法。此外，这两种机制在MLDF中都是必要的。实验结果表明，该算法在应用各种基础树模型方面具有较高的灵活性和抗过拟合能力。
jamswan20042019-11-20 03:05
周教授的西瓜书🍉不错
lishuanzhu2019-11-20 03:10
mark下，回头看看论文，看看复现下结果，找找场景
timeinwait2019-11-20 03:21
西瓜书还是不错的
驭波者2019-11-20 03:30
确实不错，不过我看不懂，低价在BS出了
退休工人2019-11-20 03:31
楼主头像出处是什么？
LittleBlue2019-11-20 06:37
和gbdt有啥区别? 不会又是炒作概念吧
net.ieee2019-11-20 06:39
周老师的书不错