DBSCAN
算法介绍
基于密度聚类的非参数算法,通过将数据点分为核心点、边界点和噪声点来实现聚类。
使用场景
数据集中存在明显的密度变化或离群点时较优。
优势介绍
- 不需要假设先验分布,适用于大多数数据集;
- 可以发现任意形状和大小的聚类。
- 劣势介绍
- 对超参数敏感,如半径大小和密度阈值等;
- 难以处理高维数据。
参数介绍
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择特征列 | selectedColNames | 是 | 输入表中选择特征列名类型。 | 无 |
模型参数 | 半径 | eps | 是 | 用于设置密度聚类中的ε领域,即半径。 | 0.5 |
模型参数 | 最少的样本量 | min_samples | 是 | 用于设置ε领域内最少的样本量。 | 5 |
调优参数 | 最近邻搜寻方法 | algorithm | 是 | 包括auto、ball_tree、kd_tree、brute。在计算点之间距离的过程中,用于指定搜寻最近邻样本点的算法。默认为auto,表示密度聚类会自动选择一个合适的搜寻方法。如果为ball_tree,则表示使用球树搜寻最近邻。如果为kd_tree,则表示使用K-D树搜寻最近邻。如果为brute,则表示使用暴力法搜寻最近邻。 | auto |
- 推荐参数值
- 半径大小epsilon:0.1-0.5;
- 密度阈值min_samples:5-10。
- 调参建议
- 通过降低epsilon值使得点更容易被划分为核心点,从而提高聚类效果;
- 通过增加min_samples值可以剔除噪声和边缘点,提高聚类效果;
- 对于高维数据,可以考虑使用PCA或其他降维技术来减少特征数量,提高聚类效果;
- 可以通过多次试验,尝试不同参数组合,找到最优参数集。