聚类方法
聚类方法
由于毕业设计论文需要,整理一下数据聚类的方法用于计算量化算子参数。
Kmeans
参考文献: 【机器学习】K-means(非常详细) - 知乎 (zhihu.com)
算法描述
-
算法功能:按欧式距离聚类,使数据集中每个数据点离各自聚类中心的距离总和最小
-
算法输入:
-
大小为$N$的数据集
- 聚类中心个数$k$
- $k$个初始化的聚类中心
-
-
算法输出:
- $k$个聚类中心的坐标
- 数据集中每个样本所属的类别
-
算法步骤
- 选择$k$个样本作为初始聚类中心 $\alpha = \alpha_1, \alpha_2, … \alpha_k$
- 对于每个数据集中的样本$x_i$,计算它到$k$个聚类中心的距离并分到距离最小的聚类中心的类中
-
针对每个类$a_j$,重新计算聚类中心$a_j = \frac{1}{ c_i } \sum_{x\in c_i}x$ - 重复2 3步,直至中止条件
第三步选择的聚类中心可以不是数据集中的点
评价
- 非常好理解
- 听说效果不错
- 需要手动选择$k$值与初始中心