摘要:针对大数据环境中存在很多的冗余和噪声数据,造成存储耗费和学习精度差等问题,为有效的选取代表性样本,同时提高学习精度和降低训练时间,提出了一种基于选择性抽样的SVM增量学习算法,算法采用马氏抽样作为抽样方式,抽样过程中利用决策模型来计算样本间的转移概率,然后通过转移概率来决定是否接受样本作为训练数据,以达到选取代表性样本的目的。并与其他SVM增量学习算法做出比较,实验选取9个基准数据集,采用十倍交叉验证方式选取正则化参数,数值实验结果表明,该算法能在提高学习精度的同时,大幅度的减少抽样与训练总时间和支持向量总个数。