当前位置: 首页 > >

不*衡数据集中的分类问题

发布时间:



文章目录
前言一、二元不*衡数据集二、应用领域三、评价指标略(参考论文的评价指标)四、数据级别4.1过采样4.2欠采样4.3混合方法
五、算法级别六、集成级别总结



前言

不*衡数据集的部分分类或分类问题,是机器学*中的一个基本问题,受到广泛的关注。主要从三个级别进行考虑:算法级别、数据级别、混合级别



一、二元不*衡数据集

在二元不*衡数据集中,一类的实例数高于第二类的实例数。 因此,第一类被称为多数派,第二类被称为少数派。 因此,该数据集包含两种实例:多数和少数. 不*衡二进制数据集中实例的分布是通过等式(19)中定义的不*衡率(IR)[19]来衡量的。
根据IR的值,将不*衡的数据集分为三类[20]:低不*衡的数据集(IR介于1.5和3之间),中等不*衡的数据集(IR介于3和9之间)和高不*衡的数据集。 (IR高于9)。


二、应用领域

在现代社会中,基于网络的计算机系统越来越扮演着至关重要的角色。 对计算机系统和网络的攻击正在增长。 存在不同类型的网络攻击。 有些数量很多,有些则很少。 例如,KDD-CUP’99数据集包含四类网络攻击:拒绝服务(DoS),监视(探针),从根到本地(R2L)和从用户到根。 (U2R)。 最后两次攻击本质上是罕见的[23]。


三、评价指标略(参考论文的评价指标)
四、数据级别

主要分为三类:过采样、欠采样、混合采样


4.1过采样

过采样方法过采样用于通过复制一些少数实例来增加不*衡数据集的大小。 可以通过以下方法完成此复制。
随机过采样
它会复制一些随机选择的少数实例[3]。 因此,少数实例的多个副本增加了这些实例之间的重叠[37]。 特别是,当生成的分类器包含针对同一实例的多个副本的更具体的规则时,就会出现重叠。 结果,在这种情况下,学*的准确性很高,并且用于测试的分类器的性能通常很低[38]。
少数综合过采样技术(SMOTE)
SMOTE [39]是一种具有数据生成功能的综合方法。 它在各个领域都取得了一些成功[3]。 它为每个少数实例xi创建一个综合示例xnew,如下所示。 它确定xi的K个*邻(它们与xi之间的欧式距离最小的少数实例)。 然后,它随机选择K最*邻居yi之一。 最后,它应用等式。 (10),其中δ是随机数∈[0,1]。 因此,我们知道xnew是连接xi和yi的段的一个点:
SMOTE不会忽略少数实例,因为它会概括少数实例的决策区域。 但是SMOTE有两个问题[40]:过度概括和方差。 第一个问题是由于在不考虑多数阶级的情况下对少数民族地区的盲目概括,这增加了阶级之间的重叠数量。 第二个问题涉及在不考虑IR的情况下预先设置的生成合成实例的数量。
MSMOTE SMOTE
不考虑少数实例的分布以及数据集中有噪声的实例的分布。 因此,MSMOTE [41]将少数实例分为三类:安全,边界和潜在噪声。
如果属于少数群体的K*邻的数量大于属于多数群体的K*邻的数量,则该实例为秘书。 如果属于少数群体的K*邻的数量少于属于多数群体的K*邻的数量,则该实例为Border。如果实例的所有K最*邻都具有多数类,则该实例为潜在噪声。
MSMOTE以与SMOTE相同的方式为所有安全实例生成综合实例。 但是,对于每个边界实例,它选择最*的邻居以生成合成示例。 但是,它不会为嘈杂的实例生成综合实例,因为它们会降低分类器的性能。
Borderline-SMOTE
边界实例和附*的实例比远离边界的实例更容易被误分类,并且它们对于分类最重要。 基于此分析,边界实例对分类的贡献很小。 因此,有人提出使用Borderline-SMOTE [42]方法将过采样应用于边界少数群体实例,而不是将其应用于所有少数群体实例。 为此,它构造了一组称为DANGER的边界少数派实例。 然后,它将对危险集的每个实例应用SMOTE。
自适应综合采样方法(ADASYN)
ADASYN [43]使用称为密度的函数作为自动准则来决定每个少数实例可能生成的综合实例的数量。


4.2欠采样

欠采样方法它包括通过删除一些多数实例来减少数据大小,目的是使每个类的实例数量相等[44]。 有几种欠采样方法,它们在选择要删除的多数实例的方式上有所不同。
随机欠采样(RUS)RUS
[4,44]删除一些随机选择的多数实例。 但这可能会阻碍学*[37,38,45]; 删除的多数实例会导致分类器忽略与多数类相关的重要概念。
***知情的欠采样***建议避免由RUS引起的信息丢失[46]。 在这种欠采样算法中,我们有以下内容。
EasyEnsemble
它旨在更好地利用RUS忽略的多数实例。 首先,它将训练数据集分别分为大小为n和p的少数集P和多数集N [46]。 然后,通过对N进行替换随机抽样,构建大小为p的T个子集N1,N2…,NT。此后,它生成T个分类器H1,H2…,HT。 分类器Hi是通过在Ni和P上应用AdaBoost产生的,它包含所有多数和少数实例的概念。 最后,它通过组合T个生成的分类器来构造最终分类器H。
***BalanceCascade***训练数据集由大小为p的少数实例的集合P和大小为n的多数实例的集合N组成[46]。 BalanceCascade在每次迭代时,从所有集合P和从N中随机选择的子集E中构造分类器Hi,其中| E |。 = p。 然后,它通过删除所有被Hi分类的多数实例来更新N。 该算法以监督方式探索多数实例,因为多数实例集在每个分类器生成后都会更新。
用KNN进行的信息欠采样该技术[44]基于应用KNN算法[47]的数据分布特征。 已提出以下三种方法使用此技术:NearMiss-1选择多数实例如下:对于每个多数实例xi。
对于每个少数实例xj:计算xi与xj之间的距离dij。
确定代表少数实例的xi的三个最*邻居xk(1≤k≤3)。
计算公式中定义的*均距离di。 (11):di = 13∑3k = 1dik E11选择多数实例xi,其与三个最*的少数群体实例的*均距离最小。
NearMiss-2方法具有与先前方法相同的步骤。 但是,它将选择与三个最远的少数类实例的*均距离最小的多数实例。
NearMiss-3为每个少数实例选择给定数量的最接*多数实例,以确保每个少数实例都被某些多数实例包围。NearMiss-1选择多数实例如下:对于每个多数实例xi。
对于每个少数实例xj:计算xi与xj之间的距离dij。
确定代表少数实例的xi的三个最*邻居xk(1≤k≤3)。
计算公式中定义的*均距离di。 (11):di = 13∑3k = 1dik E11选择多数实例xi,其与三个最*的少数群体实例的*均距离最小。
NearMiss-2方法具有与先前方法相同的步骤。 但是,它将选择与三个最远的少数类实例的*均距离最小的多数实例。
NearMiss-3为每个少数实例选择给定数量的最接*多数实例,以确保每个少数实例都被某些多数实例包围。


4.3混合方法

这些方法结合了欠采样和过采样。 他们的目的是消除由过采样方法引起的过拟合[3]。 例如,SMOTE + Tomek链接[17]在SMOTE生成合成少数实例后应用Tomek链接,而SMOTE + ENN [17]使用ENN删除少数和多数实例。 为此,删除每个训练数据集的三个最*邻居的错误分类实例。


五、算法级别

算法级别大多数方法都基于修改现有的完整分类算法以使其适应不*衡的数据集或提出特定的算法。
5.2.1现有算法的修改5.2.1.1决策树决策树[55、56、57、58]是基于规则的分类器的最流行形式。 它允许简单,图形化地快速建模或多或少复杂的现象。 它的可读性,执行速度和一些必要的假设可以先验地解释其当前的流行度。 构造决策树的所有方法都具有这些运算符:确定节点是否为终端,选择要与该节点关联的测试以及为叶分配一个类。
决策树的现有构建方法因针对不同运营商的选择而不同。 CART [59]和C4.5 [60]是最流行的决策树算法。
在树的构造阶段,C4.5选择使信息增益最大化的节点属性[60],即高置信度。 但是,此度量不适用于不*衡的数据集,因为最可信的规则并不意味着它们是最重要的,并且某些最重要的规则可能不是最可信的(可能没有很高的可信度)。 对于使用Gini函数[60]的CART,也会出现相同的问题。 这些算法着重于找到类的前提。 而且,他们对班级分布使用敏感的度量。 由于这些原因,已经提出了一些应用非敏感措施[61]或修改施工阶段的方法


六、集成级别

过采样/欠采样SVM的集成
这些方法[86]通过预处理来*衡训练数据集,并将其提供给SVM以建立最佳分类器。 例如,欠采样支持向量(EUS-SVM)的集合在N个不同的训练数据集上应用了N次支持向量支持。 它包含所有少数派实例和一些通过随机抽样选择的多数派实例。 最终分类器由N个产生的分类器组合而成。


总结

参考链接:https://www.intechopen.com/books/recent-trends-in-computational-intelligence/classification-problem-in-imbalanced-datasets



友情链接: