Skip to main content
Version: 2.17.1

GMM

  • 算法介绍

    基于统计学习理论的高斯混合模型,将每个簇看作是由一个或多个高斯分布组成。

  • 使用场景

    数据集服从高斯分布且聚类数量未知时较优。

  • 优势介绍

  1. 适用于大多数数据集;
  2. 可以包括任意数量的聚类;
  3. 可以把聚类看作是概率分布,具有较好的可解释性。
  • 劣势介绍
  1. 易受局部极值的影响;
  2. 计算量较大,训练时间长。
  • 参数介绍

    仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征列selectedColNames输入表中选择特征列名类型。
模型参数混合高斯模型个数n_components混合高斯模型个数。1
模型参数协方差类型covariance_type协方差类型包括full、tied、diag、spherical等。full指每个分量有各自不同的标准协方差矩阵;tied指所有分量有相同的标准协方差矩阵;diag指每个分量有各自不同对角协方差矩阵;spherical指每个分量有各自不同的简单协方差矩阵,球面协方差矩阵。full
调优参数EM迭代停止阈值tolEM迭代停止阈值。0.001
调优参数最大迭代次数max_iter最大迭代次数。100
调优参数初始化次数n_init初始化次数,用于产生最佳初始参数。1
调优参数初始化参数类型init_params初始化参数类型包括kmeans、random等,初始化参数实现方式,默认用kmeans实现,也可以选择随机产生。kmeans
  • 推荐参数值
  1. 聚类个数k值:2-20;
  2. 权重协方差矩阵初始化方式:diag,spherical等;
  3. 均值向量初始化方式:k-means,随机赋值等。
  • 调参建议
  1. 调整GMM中的限制,如方差或协方差结构等来捕获数据分布的真正形状,并提高算法的性能;
  2. 尝试选择不同的初始化和优化策略,如k-means++、random、L-BFGS等,以找到最优解;
  3. 对于非凸形状的数据集,考虑使用层次聚类等方法对其进行预处理;
  4. 对于多元混合模型,可以通过使用Akaike信息准则(AIC)或贝叶斯信息准则(BIC)等指标来确定最优分类数。