开发也能看懂的大模型：聚类

聚类（Clustering）简介

聚类是一种 无监督学习方法，用于将数据集划分为多个 组（簇，Clusters） ，使得组内样本之间的相似性尽可能高，组间样本的差异性尽可能大。它常用于数据探索、模式发现和降维。

1. 聚类的基本原理

目标：将未标注的数据集划分成若干簇，使得：

同一簇内的样本尽可能相似（簇内紧凑性高）。不同簇之间的样本尽可能不同（簇间分离性强）。

常用距离度量：衡量样本之间的相似性或差异性。

欧几里得距离曼哈顿距离余弦相似度Jaccard 相似系数

2. 常见的聚类算法

（1）K-Means

原理：通过迭代，将数据点分配到最近的中心，并更新中心点位置，直到收敛。

特点：

简单高效，但对初始点敏感。适合处理形状为球形的簇，且对噪声和异常值较敏感。

参数：需指定簇数 k。

（2）层次聚类（Hierarchical Clustering）

原理：

凝聚层次聚类

分裂层次聚类

特点：

不需要指定簇数。可以生成树状结构（树状图）。计算复杂度较高，不适合大规模数据。

（3）DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

原理：基于密度的聚类方法，按照样本点的密度分布识别簇，同时将低密度区域的点标记为噪声。

特点：

自动确定簇数。对非球形簇效果好。能处理噪声和异常值。

适用场景：地理位置聚类、密度差异明显的数据。

（4）高斯混合模型（Gaussian Mixture Model, GMM）

原理：假设数据是由多个高斯分布混合而成，通过最大化似然估计找到每个高斯分布的参数，进行软聚类。

特点：

软聚类

（5）Mean-Shift

原理：通过滑动窗口找到密度最大的区域，每次迭代移动到密度中心，最终将点分配到密度吸引的簇中。

特点：

不需要指定簇数。对非球形簇效果好。计算复杂度较高。

3. 聚类评估指标

由于聚类是无监督学习，评估其效果需要特定的指标：

内在评估

轮廓系数（Silhouette Coefficient）

簇内方差（Inertia）

外在评估

如果有已知标签，可以用分类指标评估聚类效果：

纯度（Purity）

调整兰德指数（ARI, Adjusted Rand Index）

4. 实际应用

客户细分

图像分割

文档分类

推荐系统

生物信息学

5. 使用示例：K-Means 聚类

1. 问题背景

假设我们有一组二维数据点，需要将这些点分成几个簇。每个簇代表一类相似的数据。

目标：利用 K-Means 算法对数据点进行聚类，并直观展示其聚类结果和算法步骤。

2. 数据生成与预处理

我们使用 make_blobs 方法生成二维数据，其中每个簇具有高斯分布，易于观察和分析。

import numpy as npfrom sklearn.datasets import make_blobsimport matplotlib.pyplot as plt# 生成示例数据X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=42)# 可视化数据点plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')plt.title("Generated Data")plt.xlabel("Feature 1")plt.ylabel("Feature 2")plt.show()

解释：

n_samples=300

centers=4

cluster_std=0.6

random_state=42

运行后，我们会看到一个随机分布的二维数据集，其中点主要集中在 4 个簇附近。

3. K-Means 聚类

接下来使用 KMeans 进行聚类，分析其关键流程：

from sklearn.cluster import KMeans# K-Means 聚类kmeans = KMeans(n_clusters=4, random_state=42)y_pred = kmeans.fit_predict(X)# 聚类中心centers = kmeans.cluster_centers_# 可视化结果plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=50)plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')plt.title('K-Means Clustering')plt.xlabel("Feature 1")plt.ylabel("Feature 2")plt.show()

4. 代码解析

初始化：

kmeans = KMeans(n_clusters=4, random_state=42)

n_clusters=4

random_state=42

拟合与预测：

y_pred = kmeans.fit_predict(X)

fit_predict 方法会执行两个任务：

拟合

预测

聚类中心：

centers = kmeans.cluster_centers_

返回聚类后每个簇的中心坐标。在结果中标记为红色 "X"。

K-Means 的聚类过程分为以下几步：

初始化

点分配

中心更新

迭代

可视化结果

图1中点的颜色表示它们所属的簇。图2中红色 "X" 标记了聚类后计算出的中心点。数据点的分布与聚类结果较好地匹配，说明 K-Means 成功划分出了合理的簇。

完整代码：

import numpy as npfrom sklearn.datasets import make_blobsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeans# 生成示例数据X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=42)# 可视化数据点plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')plt.title("Generated Data")plt.xlabel("Feature 1")plt.ylabel("Feature 2")plt.savefig('output.png')# K-Means 聚类kmeans = KMeans(n_clusters=4, random_state=42)y_pred = kmeans.fit_predict(X)# 聚类中心centers = kmeans.cluster_centers_# 可视化结果plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=50)plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75, marker='X')plt.title('K-Means Clustering')plt.xlabel("Feature 1")plt.ylabel("Feature 2")plt.savefig('output1.png')

5. 扩展：使用肘部法则确定簇数

KMeans中n_clusters参数的选择非常重要，过大或过小都会影响聚类效果。可以用肘部法则寻找最优值。

from sklearn.cluster import KMeansfrom sklearn.metrics import silhouette_scoreimport matplotlib.pyplot as pltfrom sklearn.datasets import make_blobs# 生成示例数据X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=42)# 使用肘部法则和 Silhouette 分数确定最优 K 值distortions = []silhouette_scores = []K = range(2, 10)for k in K:    kmeans = KMeans(n_clusters=k, random_state=42)    y_pred = kmeans.fit_predict(X)    distortions.append(kmeans.inertia_)    silhouette_scores.append(silhouette_score(X, y_pred))# 绘制结果plt.figure(figsize=(12, 5))plt.subplot(1, 2, 1)plt.plot(K, distortions, marker='o')plt.title("Elbow Method")plt.xlabel("Number of Clusters")plt.ylabel("Distortion")plt.subplot(1, 2, 2)plt.plot(K, silhouette_scores, marker='o', color='green')plt.title("Silhouette Score")plt.xlabel("Number of Clusters")plt.ylabel("Silhouette Score")plt.tight_layout()plt.savefig('output3.png')

Elbow Method

Silhouette Score