聚类方法

聚类方法

由于毕业设计论文需要,整理一下数据聚类的方法用于计算量化算子参数。

Kmeans

参考文献: 【机器学习】K-means(非常详细) - 知乎 (zhihu.com)

算法描述

  • 算法功能:按欧式距离聚类,使数据集中每个数据点离各自聚类中心的距离总和最小

  • 算法输入:

    • 大小为$N$的数据集

    • 聚类中心个数$k$
    • $k$个初始化的聚类中心
  • 算法输出:

    • $k$个聚类中心的坐标
    • 数据集中每个样本所属的类别
  • 算法步骤

    1. 选择$k$个样本作为初始聚类中心 $\alpha = \alpha_1, \alpha_2, … \alpha_k$
    2. 对于每个数据集中的样本$x_i$,计算它到$k$个聚类中心的距离并分到距离最小的聚类中心的类中
    3. 针对每个类$a_j$,重新计算聚类中心$a_j = \frac{1}{ c_i } \sum_{x\in c_i}x$
    4. 重复2 3步,直至中止条件

    第三步选择的聚类中心可以不是数据集中的点

评价

  • 非常好理解
  • 听说效果不错
  • 需要手动选择$k$值与初始中心

GMM聚类

参考文献:聚类算法——高斯混合模型(GMM) - 知乎 (zhihu.com)