摘要:针对模糊C均值聚类(Fuzzy c-Means Clustering, FCM)算法聚类过程迭代的特点,采用迭代式MapReduce模型对FCM算法进行了优化实现。Map函数计算每个样本到聚类中心的隶属度,Reduce函数接收Map函数的中间输出计算新的聚类中心,传递模块将最新聚类中心传送给原Map任务所在节点,供新一轮MapReduce job使用。迭代式MapReduce模型在MapReduce基本模型上添加了传递模块,有效解决了基本模型在处理迭代问题上存在的不足。在Hadoop平台中,分别使用基于迭代式MapReduce和MapReduce基本模型的FCM算法对变压器进行故障诊断。实验结果表明,基于迭代式MapReduce的FCM算法诊断速度达到了基于MapReduce基本模型算法诊断速度的12倍以上,误判率降低了12%~15%,有效提升了FCM算法的诊断效率。