聚类-Storm-of-Internet的专栏

聚类

2018-04-30 20:45:25栏目：大数据 IP属地：IP未知

聚类分析是最常见的无监督学习任务，将一组数据按照内在的相似性划分为多个类别，使得同一个类别内的数据之间相似度较大，相互之间的距离较小；相反，对于不同类别的数据，它们之间的相似度较小，距离也比较远。

距离度量：聚类是一个基于距离划分数据集的过程，对于有序数据常用的距离方法是Minkowski距离，

将聚类堪称是一个按层次进行数据划分的过程，算法结束后将形成一棵聚类树。层次聚类按照执行的顺序不同，可以分为自底向上的合并方法，以及自顶向下的分裂方法

自底向上：初始将每一个数据点作为一个簇，然后选择最近的两个簇合并后进入下一层，反复进行下去得到一个聚类树，当数据点为两个点时可以采用距离度量的方式进行划分，当簇包含多个数据点时，需要采用最小/最大/平均距离的方法进行选择。

自顶向下：将全部的数据点作为一个簇，按照某个准则将簇分裂，在数据点中选择直径最大的两个点进行分裂（簇中最远的两个点之间的距离）

多种常见聚类方法

K-means聚类

谱聚类