GMM
算法介绍
基于统计学习理论的高斯混合模型,将每个簇看作是由一个或多个高斯分布组成。
使用场景
数据集服从高斯分布且聚类数量未知时较优。
优势介绍
- 适用于大多数数据集;
- 可以包括任意数量的聚类;
- 可以把聚类看作是概率分布,具有较好的可解释性。
- 劣势介绍
- 易受局部极值的影响;
- 计算量较大,训练时间长。
参数介绍
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择特征列 | selectedColNames | 是 | 输入表中选择特征列名类型。 | 无 |
模型参数 | 混合高斯模型个数 | n_components | 是 | 混合高斯模型个数。 | 1 |
模型参数 | 协方差类型 | covariance_type | 是 | 协方差类型包括full、tied、diag、spherical等。full指每个分量有各自不同的标准协方差矩阵;tied指所有分量有相同的标准协方差矩阵;diag指每个分量有各自不同对角协方差矩阵;spherical指每个分量有各自不同的简单协方差矩阵,球面协方差矩阵。 | full |
调优参数 | EM迭代停止阈值 | tol | 是 | EM迭代停止阈值。 | 0.001 |
调优参数 | 最大迭代次数 | max_iter | 是 | 最大迭代次数。 | 100 |
调优参数 | 初始化次数 | n_init | 是 | 初始化次数,用于产生最佳初始参数。 | 1 |
调优参数 | 初始化参数类型 | init_params | 是 | 初始化参数类型包括kmeans、random等,初始化参数实现方式,默认用kmeans实现,也可以选择随机产生。 | kmeans |
- 推荐参数值
- 聚类个数k值:2-20;
- 权重协方差矩阵初始化方式:diag,spherical等;
- 均值向量初始化方式:k-means,随机赋值等。
- 调参建议
- 调整GMM中的限制,如方差或协方差结构等来捕获数据分布的真正形状,并提高算法的性能;
- 尝试选择不同的初始化和优化策略,如k-means++、random、L-BFGS等,以找到最优解;
- 对于非凸形状的数据集,考虑使用层次聚类等方法对其进行预处理;
- 对于多元混合模型,可以通过使用Akaike信息准则(AIC)或贝叶斯信息准则(BIC)等指标来确定最优分类数。